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本 书 所 说 的 “统计 学 ”, 在 我 国 习 直上 常 称 之 为 “数理 
统计 等 ” .对 这 些 名 词 ,存在 看 不 尽 相 同 的 理解 ,这 些 将 在 
本 已 的 第 1 节 中 加 以 说 明 . 

本 书 试图 对 统计 竺 的 学 科 性 质 、 基 本 内 容 和 发 展 历 
史 , 作 一 简要 介绍 .作为 一 本 通俗 性 的 上 ， 又 受 篇 申 和 所 
使 用 的 数学 工具 的 限制 ， 这 个 介绍 在 理论 方面 难于 达到 
元 分 的 严谨 .全 面 和 系统 化 ,还 请 谈 者 见 谎 

本 书 前 三 节 在 数学 上 要 求 很 少 ,一 般 具 备 高 中 程度 
数学 知识 的 人 ,都 可 以 读 懂 .第 4 节 则 机 求 读者 具有 一 定 
的 概率 论 知识 ,不 过 其 中 的 基本 思想 ,在 第 1 节 中 已 有 所 
交代 .最 后 一 节 , 因 系 讲述 历史 ， 不 能 不 提 到 某 些 在 前 几 
本 中 未 充分 解释 的 概念 ,不 具名 统计 等 初步 知识 的 读者 ， 
浏览 一 过 ,大 致 有 也 了 解 就 行 了 . 


一 、 什 么 是 统计 学 


什么 是 统计 和 学? 什么 是 数理 统计 党 ? 这 个 问题 ,难于 
用 简短 的 语言 作 一 个 明确 , 产 说 而 全 面 的 回答 .我 们 打算 
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先 用 通俗 的 语言 作 一 个 概括 的 论述 ， 然 后 在 适当 的 地 方 
加 以 补充 、 解 释 ， 以 使 读者 对 此 问题 有 一 个 比较 清楚 的 
理解 . 

实践 是 认识 的 来 源 . 所 以 ,在 研究 一 个 问题 时 ,往往 
首先 要 收集 必须 的 资料 .比方 说 ,少年 犯罪 与 家 庭 情 况 的 
关系 如 何 ? 跑 步 对 中 、 老 年 人 的 健康 是 否 有 益 ? 或 更 细致 
一 些 , 对 各 种 年 龄 的 人 ,在 什么 时 间 , 以 怎样 的 速度 , 跑 多 
长 的 距离 为 好 ? 受 教 育 时 间 的 长 短 与 其 收入 的 关系 如 何 ? 
吸烟 是 否 增加 患 肺癌 的 机 会 ?增加 多 少 ?对 一 种 产品 的 制 
造 工艺 作 一 些 改 变 ,是 否 有 助 于 改善 其 质量 ,改善 多 少 ? 
凡 此 种 种 ,都 是 很 有 现实 意义 的 问题 . 这 类 问题 中 ,有 的 
前 人 已 作 过 一 些 研究 ,提出 过 种 种 见解 .但 前 人 的 研究 可 
能 是 在 不 同 的 条 件 下 进行 的 (例如 ,对 不 同 的 国家 ， 受 教 
育 时 间 长 得 与 收入 的 关系 就 有 不 同 ), 有 的 还 受到 当时 科 
技 发 展 水 平和 其 他 因素 的 局 限 (例如 , 某 项 研究 由 于 经 费 
的 关系 ,收集 资料 的 规模 很 小 )， 因 此 他 们 的 结论 不 能 照 
搬 . 如 果 所 研究 的 是 一 个 前 人 未 接触 过 的 新 闻 题 , 那 当 然 
更 不 用 说 ,收集 资料 这 步 工作 是 必 不 可 少 的 . 

收集 资料 的 方法 有 两 种 ,观察 和 试验 .这 两 个 词 的 含 
义 的 差别 在 于 ,在 “观察 "时 ,观察 者 可 以 说 是 处 在 被 动 的 
地 位 ,他 只 是 对 所 感 兴趣 的 事物 ,记录 下 “ 目 然而 然 地 ”发 
生 的 结果 ,而 不 去 企图 改变 他 所 观察 的 事物 .天 文 观察 是 
一 个 典型 的 例子 .在 吸烟 与 患 肺癌 的 关系 的 问题 中 ,情况 
也 是 如 此 ,你 可 以 观察 一 个 人 是 否 吸烟 , 吸 多 少 ， 观 察 他 
是 否 患 肺癌 ;但 你 不 能 也 不 会 去 设法 改变 他 的 状 沈 ,这 是 
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因为 一 个 从 不 吸烟 的 人 ， 不 会 应 你 的 研究 工作 的 要 求 而 
去 吸烟 . 而 在 “试验 "中 ,试验 者 则 处 在 主动 的 地 位 ,可 在 
一 定 范 围 内 自由 地 控制 某 些 因 素 ， 以 考察 它们 对 其 他 因 
素 的 作用 . 盟 型 的 例子 如 在 工业 试验 由， 工艺 参数 如 何 
取 , 原料 配方 如 何 选 择 , 出 自 试验 者 的 主动 ， 以 考察 它们 
对 产品 产量 和 质量 的 影响 . 

从 统计 学 的 眼光 看 ， 观 察 和 试验 都 是 收集 资料 的 方 
法 . 因此 ， 许 多 统计 学 著作 混用 这 两 个 词 . 但 也 应 注意 
到 ,有 些 统计 方法 的 合理 使 用 和 解释 ,与 资料 是 来 自 观察 
还 是 试验 有 关 . 

在 不 少 情况 下 ,收集 的 资料 可 以 用 数量 的 形式 表达 . 
如 一 个 人 的 月 收入 以 人 民 币 多 少 元 计 , 是 一 个 数字 .有 时 
需要 研究 事物 的 若干 个 方面 ， 则 资料 可 以 用 若干 个 数字 
〈《 即 一 个 重量 ) 表 达 . 如 同时 观察 一 个 人 的 身高 和 体重 , 结 
果 是 一 个 二 维 向 量 . 也 有 些 情 况 ， 观 察 或 试验 所 得 只 是 
事物 所 属 的 等 级 .类 别 等 . 例如 观察 一 人 的 血型 ,结果 为 
A、B、AB、O 由 类 中 之 一 ;对 一 种 酒 品 圈 结果 , 列 入 甲 、 
乙 . 丙 三 等 之 一 . 这 些 , 在 必要 时 可 以 进行 “数量 化 >， 例 
如 ,约定 把 A、B、AB、O9 四 种 血型 分 别 给 以 数字 1、2、 
3、4. 因此 ， 在 统计 工作 中 ， 习 惯 上 把 所 收集 来 的 资料 
称 为 “数据 >， 或 者 用 “样本 ”这 个 专门 术语 ， 意 思 都 是 一 
样 的 . 

但 是 ,认识 并 不 是 实践 的 直接 产物 .为 研究 一 个 问题 
而 收集 的 资料 ,一 般 是 一 大 堆 杂乱 无 章 的 数字 ,从 中 看 不 
出 什么 道理 来 比如 说 ,为 研究 吸烟 与 忠和 肺癌 的 关系 , 观 
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察 了 5,000 人 ， 逐 一 记 下 每 人 日 抽烟 多 少 支 ， 抽 烟 史 多 
长 ,是 否 肺 况 患 者 ,上 患 病 多 久 等 资料 , 订 成 一 大 厚 册 ;泛泛 
翻阅 这 本 册子 ,得 不 出 多 少 东 西 . 因此 ,需要 把 数据 加 以 
整理 ,从 其 中 提取 出 与 所 研究 的 问题 最 有 关 的 信息 ,并 以 
简明 醒目 的 方式 表达 出 来 .例如 ,一 种 可 能 的 整理 方式 如 
下 :把 所 观察 的 5,000 人 , 按 “ 不 吸烟 *“ 每 天 吸 10 支 以 
下 ”、“ 每 天 吸 10 一 20 支 "、“ 每 天 吸 20 文 以 上 ”分 组 ,从 收 
集 的 资料 中 算出 各 组 肺 痛 的 发 病 率 ,并 画 成 一 张 图 ; 则 很 
易 看 出 肺 冶 发 病 率 随 吸 烟 量 增加 而 上 升 的 趋势 ， 以 及 这 
个 趋势 的 大 小 的 概念 .再 举 一 个 例子 :为 考察 毕业 后 工作 
了 10 年 至 30 年 的 大 学 生 的 工资 收入 状况 ， 在 这 类 人 中 
抽取 了 10,000 名 进行 观察 , 记 下 每 人 目前 月 工资 数 ， 得 
Xi1，Xs，*…，Xioo0o0 等 10,000 个 数据 . 计算 其 算术 平均 ， 
即 
X =(Xi 十 二 Xioooo) + 10000, 
就 可 以 对 这 批 人 的 收入 的 总 的 状况 ,或 平均 状况 ,有 一 个 
了 解 . 如 果 要 进一步 了 解 收 入 参差 不 齐 的 情况 , 需 引 入 另 
外 的 指标 ,例如 z 
S = [5(Xi—X)? + .+ (Xi0o000 ~— XX) 10000 . 

S” 您 大 ,参差 不 齐 的 程度 就 您 大 .这 个 指标 s” 能 给 我 们 
一 些 局 示 ， 5* 本 小 ,说 明 收 入 没有 适当 拉 开 档次 ,可 能 与 
平均 主义 有 关 ; 5 太 大 , 则 说 明 资 历 较 浅 的 工作 者 收入 太 
低 , 可 能 是 反映 了 某 种 问题 . 因此 ,通过 整理 数据 得 到 的 
这 两 个 指标 XX 和 s*， 以 易于 理解 的 方式 告诉 了 我 们 不 少 
东西 (或 者 说 ， 以 简明 的 方式 总 结 了 这 一 大 批 资料 的 信 


息 )， 如 果 想 了 解 得 更 细致 些 ， 可 以 用 一 定 间 隔 作 单位 
(如 1 年 , 5 年 等 ) ,算出 在 这 10,000 人 中 ,毕业 年 限 在 此 
间隔 内 的 人 ， 上 月 前 的 月 平均 工资 ， 用 列表 或 画图 的 方式 
给 出 结果 . 自然 ， 随 着 所 研究 的 问题 的 不 同 、 数 据 形式 
的 不 同 ， 整 理 的 方法 也 会 有 差别 . 可 以 说 ， 在 什么 情况 
下 该 用 怎样 有 效 的 方式 去 整理 数据 ， 属 于 统计 学 的 研究 
范围 . 

按 一 定 的 方式 整理 数据 ， 往 往 也 总 构成 对 数据 的 一 
种 分 析 . 例如 ,分 析 上 例 中 的 数据 , 可 得 出 : 毕业 后 工作 
年 限 每 长 一 年 ， 平 均 月 工资 增长 多 少 . 在 吸烟 与 患 肺癌 
关系 的 例 中 ,分 析 所 收集 的 数据 ,可 以 知道 日 吸烟 支 数 每 
增加 5 支 ， 或 吸烟 中 每 增加 5 年， 肺癌 的 发 病 率 增加 多 
少 . 但 无 论 对 数据 进行 整理 或 分 析 ， 都 没有 越 出 所 得 数 
据 的 范围 .就 是 说 ,分 析 所 得 的 结果 只 对 现 有 这 批 数据 
有 效 . 就 上 例 来 说 ,设想 分 析 结 果 是 :大 学 毕业 后 每 多 工 
作 一 年 ， 平 均 月 工资 多 2 元 . 这 结果 只 是 针对 所 抽查 的 
这 10,000 人 来 说 的 .在 我 国 , 大 学 毕业 后 工作 10~30 
年 的 ,何止 1 万 人 . 而 我 们 真正 感 兴 趣 的 ,是 这 些 工 作 人 
员 的 全 体 , 而 不 止 于 所 抽出 作 调 查 的 这 一 小 部 分 . 这样， 
我 们 吏 需 要 回 前 跨 一 大 步 ， 基于 所 收集 到 的 数据 及 对 它 
进行 整理 分 析 的 结果 ,对 数据 所 来 自 的 总 体 的 有 关 情 况 ， 
作出 一 定 的 论断 ， 这 种 论断 叫做 “统计 推断 ”. 其 具体 形 
式 , 依 问题 中 要 求 的 不 同 而 不 同 . 所 谓 “ 数 据 所 来 自 的 总 
体 ”. 束 是 指 与 所 研究 的 问题 有 关 的 所 有 个 体 的 集合 .如 
在 上 例 中 ,总 体 就 是 我 国 目 前 尚 在 的 、 大 学 毕业 后 工作 了 
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10 一 30 年 的 全 体 工作 人 员 . 著 这 样 的 工作 人 员 有 二 百 
万 ， 则 本 问题 的 总 体 中 包含 二 百 万 个 体 . 被 抽出 作 调 查 
的 那 一 万 个 体 ( 即 样本 )， 是 其 一 部 分 . 由 于 本 问题 中 我 
们 关心 的 不 是 具体 的 人 而 是 其 月 工资 ， 也 可 以 说 总 体 和 
样本 分 别 由 二 百 万 个 数 和 一 万 个 数 构成 〈 其 中 可 以 有 重 
复 的 ) .这 实际 上 就 构成 了 一 种 抽象 ， 且 是 很 重要 的 抽 
象 . 因为 这 使 我 们 可 以 摆脱 总 体 及 样本 的 具体 属性 ， 便 
于 运用 数学 的 方法 ， 对 不 同 的 具体 问题 作出 统一 的 处 理 
方法 . 

如 .上 文 所 述 ,统计 推断 的 对 象 ， 是 总 体 的 有 关 情 况 ， 
即 因 我 们 的 研究 目的 而 对 之 感 兴 趣 的 那些 情况 . 在 上 例 
中 ， 我 们 感 兴趣 的 可 以 是 总 体 平均 值 一 一 即 总 体 中 二 百 
万 个 工作 人 员 的 月 平均 工资 4a， 如果 所 抽查 的 那 一 万 名 
工作 人 员 的 月 平均 工资 为 元 = 90( 元 ), 那么 未 知 的 a 是 
否 就 等 于 90? 当然 不 一 定 . 但 也 易 了 解 ,这 二 者 之 间 会 有 
些 关系 .关系 的 大 小 和 性 质 ,取决 于 这 一 万 名 工作 人 员 是 
如 何 抽 得 的 .取决 于 从 总 体 中 所 抽出 的 个 体 的 数目 (在 此 
为 10,000), 它 在 统计 学 上 称 为 < 样本 大 小 ”一 一 不 难 明 
白 , 样本 大 小 愈 大 ,X 与 a 一 般 就 应 愈 接近 .此 外 ,还 与 
总 体 的 数学 性 质 ， 即 所 谓 数学 模型 有 关 . 这 一 点 留待 后 
面 再 作 解 释 . 

统计 推断 的 具体 形式 , 依 问题 的 要 求 而 异 . 就 此 例 而 
言 ,所 要 求 的 可 能 就 是 : 根据 样本 ,对 总 体 平均 值 a 作 一 
估计 .这 种 问题 称 为 估计 问题 ， 是 在 理论 上 研究 得 最 深 
入 ,在 应 用 上 最 常见 最 重要 的 一 类 统计 推断 问题 .总 体 平 
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均值 a 刻 划 了 总 体 一 个 方面 的 性 质 , 它 称 为 总 体 的 “ 参 
数 ”. 因此 , 在 统计 学 中 ， 像 估计 总 体 平 均 a 的 这 类 问 
题 , 常 称 为 “参数 估计 问题 ?> ， 直观 上 觉得 ,应 当 用 样本 平 
均值 X( 在 本 例 为 90) 去 估计 a. 这 个 方法 ， 即 按 样本 算 
出 的 值 去 估计 总 体 的 相应 值 ， 是 一 个 里 旧 而 常用 的 佑 计 
方法 . 

当 我 们 声明 ,采用 % 去 估计 4 时 ， 我 们 就 作出 了 一 
种 统计 推断 .因为 在 这 样 做 时 ,我 们 已 越 出 了 所 掌握 的 样 
本 的 范围 ,而 论 及 了 样本 所 来 自 的 总 体 . 有 的 读者 可 能 会 
问 , 这 样 一 个 看 来 似乎 是 纯粹 形式 上 的 步 又 ,能 有 多 大 的 
意义 ?其 实 不 然 . 跨 出 这 一 步 是 不 简单 的 . 比方 说 ,“ 用 X 
估计 a” 会 有 误差 ,这 误差 有 多 大 , 用 怎样 的 形式 表达 出 
来 ， 需 要 用 到 以 深刻 的 数学 理论 为 基础 的 统计 方法 . 又 
如 ,用 XxX 信 计 a 也 并 非 理 所 当然 的 ,唯一 可 行 的 方法 . 效 
举 一 种 可 以 设想 的 估计 方法 如 下 :把 所 得 的 10,000 个 数 
据 按 大 小 排序 ， 取 出 居于 正中 的 那 两 个 ， 设 为 x 和 x” 
(车 数据 个 数 为 奇数 , 则 内 有 一 个 恰 居 正中 ， 就 以 之 代替 
下 文 的 x”), 取 其 平均 


X* = 村 (5% 十 X7 ) 


去 估计 a. x*” 称 为 样本 的 “中 位 数 ”. 用 x* 估计 4, 在 

直观 上 也 是 讲 得 通 的 .X 和 x* 这 两 个 估计 慎 个 较 好 ? 在 

什么 意义 下 较 好 ? 这 是 深刻 的 理论 问题 . 除 此 而 外 ， 还 

可 设想 出 共 他 种 种 在 直观 上 看 来 也 合理 的 估计 方法 . 我 

们 需要 证 明 ， x 这 个 估计 在 理论 上 具有 某 种 优 息 性 ， 这 
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样 ， 用 XX 估计 a 才 有 坚实 的 基础 彻底 解决 这 个 问题 ， 
举 涉 统计 学 上 多 方面 的 理论 问题 .由 此 可 见 ， 正 如 我 们 
所 曾 指出 的 , 跨 出 这 一 步 并 非 易 事 . 

再 举 一 例 .在 研究 吸烟 与 患 肺癌 的 关系 问题 时 ,我 们 
首先 感 兴趣 的 ,可 能 是 一 个 初步 的 问题 :这 二 者 到 底 是 否 
有 关 , 而 暂 不 计 其 关系 的 深浅 与 其 确切 性 质 . 这 问题 可 以 
较 具 体 地 解释 如 下 ,; 设 如 前 所 述 ， 我 们 观察 了 5,000 人 ， 
记录 了 各 人 是 否 吸烟 与 是 否 患 肺癌 的 情况 ， 经 对 数据 作 
初步 整理 分 析 ， 觉 得 二 者 似 有 些 关 系 . 但 是 ,由 于 这 
5,000 人 只 是 地 球 上 的 成 年 人 的 很 少 一 部 分 , 仅 赁 这 
5,000 人 的 数据 而 推 及 地 球 上 全 体 成 年 人 , 有 多 大 的 可 
靠 性 ? 或 更 清楚 地 说 ， 你 在 这 5,000 人 中 分 析出 的 关 
系 , 是 纯 出 于 偶然 性 呢 ,还 是 确实 反映 了 一 种 适用 于 全 体 
成 年 人 的 规律 性 . 这 个 问题 与 上 例 中 估计 4a 的 问题 不 
同 ， 它 只 要 求 回答 一 个 “是 "或 “ 否 "( 是 纯 出 于 偶然 ， 或 
否 ). 这 种 问题 在 统计 学 上 称 为 “假设 检验 "问题 . 它 与 参 
数 估计 ,并 列 为 统计 学 中 两 类 基本 推断 问题 ,在 理论 上 有 
深入 发 展 且 有 重要 应 用 .名称 的 由 来 ,是 因为 在 统计 学 上 
处 理 这 类 问题 时 , 先 引进 一 个 有 关 的 假设 ， 如 在 本 例 中 ， 
引进 “吸烟 与 患 肺癌 无 关 " 这 个 假设 . 然后 ,用 样本 去 “ 检 
验 ” 这 假设 是 否 成 立 ， 具体 说 ,我 们 通过 分 析 所 掌握 的 数 
据 , 看 二 者 关系 的 大 小 如 何 ， 若 关系 不 大 , 则 不 能 排斥 它 
是 来 目 抽样 的 偶然 性 ,因而 断言 二 者 有 关 的 理由 不 充足 ， 
这 导致 我 们 接受 上 述 假设 ; 反之 ,车 关系 其 大 , 则 仅 以 侦 
然 性 去 解释 是 勉强 的 ,因而 有 足够 的 理由 断言 二 者 有 关 ， 


这 导致 我 们 接受 上 述 假设 . 这 里 ,关系 大 小 * 如 何 刻 划 ， 
导致 接受 或 否定 假设 的 界限 如 何 划分 ， 部 需要 统计 学 的 
理论 . 除 上 述 两 种 以 外 ,还 有 许多 形式 更 复杂 的 统计 推断 
问题 ,需要 以 深刻 理论 为 背景 的 不 同 处 理 方法 . 

由 此 可 见 , 撤 开 收集 数据 的 问题 不 谈 , 统 计 学 的 中 心 
问题 ,或 者 说 其 主要 内 容 , 就 是 统计 推断 ， 统计 学 之 所 以 
有 如 此 广泛 的 应 用 ， 正 因为 在 数学 上 成 功 地 发 展 了 一 整 
套 有 关 的 理论 ,并 在 其 基础 上 ,制定 出 了 针对 一 些 常见 的 
重要 问题 的 统计 推断 方法 .就 是 收集 数据 的 问题 ,也 在 一 
定 程 度 上 与 统计 推断 的 理论 和 方法 有 关 .， 因为 只 有 当 数 
据 的 结构 (这 取决 于 用 怎样 的 方式 去 收集 数据 ) 满 足 一 定 
的 条 件 时 ， 才 能 对 它 运 用 适当 的 统计 推断 方法 . 不然 的 
话 , 所 收集 的 数据 就 不 好 处 理 . 


以 上 在 谈论 统计 推断 问题 时 ， 我们 是 从 一 种 科学 研 


究 的 眼光 去 看 待 它 , 即 它 是 以 弄 清 事 实 为 目的 ,不 计较 什 
么 利害 关系 .有 一 类 问题 ,通称 为 “统计 决策 问题 ,或 统 
计 判 决 问题 ” ,与 统计 推断 间 题 有 关 但 又 有 差异 . 有 关 的 
地 方 是 :统计 决策 问题 的 解决 也 要 基于 收集 的 数据 ,并 使 
用 统计 推断 理论 中 提供 的 种 种 方法 .不同 之 处 在 于 ,决策 


(也 常 称 为 判决 ,或 行动 ) 要 产生 经 济 上 的 后 果 ”. 在 实际 


作出 决策 时 ,不 仅 要 考虑 到 统计 推断 上 的 结果 ,还 必须 把 
经 济 上 可 能 的 后 果 结 合 进来 .例如 ,有 一 批 产品 包含 很 多 


*) 自然 ,决策 的 后 果 不 必 限于 经 济 方面 ,但 在 统计 决策 理论 中 ， 只 考虑 那 种 网 
题 ,其 后 困 可 以 用 一 定 方法 归结 为 经 六 上 的 得 失 。 


件 ,要 估计 该 批 产品 的 废品 率 p, 则 可 以 在 该 批 产品 中 扫 
取 若干 个 作 检查 ， 以 样品 中 的 废品 率 琅 去 估计 p 即 可 ， 
但 是 ,如 果 这 批 产 品 是 工厂 对 商店 的 供 货 ,而 商店 经 理 要 
决定 是 否 接收 这 批 货 ， 则 问题 并 非 简单 地 估计 废品 率 P 
即 可 .因为 ,接收 或 拒 收 该 批 产 品 ， 都 有 经 济 上 的 后 果 . 
例如 ,车 拒 收 , 则 当日 无 该 货 可 出 售 ,要 损失 利润 ;但 如 接 
收 这 批 货 , 则 有 可 能 废品 率 p 较 大 ,而 得 不 偿 失 . 该 经 理 
作出 的 决策 ,除了 考虑 到 了 的 估计 值 直 以 外 ,还 须 把 每 件 
废品 的 损失 和 出 售 每 件 合格 品 的 利润 结合 考虑 进来 . 另 
举 一 例 : 某 工 厂 的 设计 试验 部 门 ,通过 适当 安排 的 试验 并 
使 用 一 定 的 统计 推断 方法 ， 搞 清楚 了 原料 配方 与 产品 性 
能 之 间 的 关系 .但 不 同 的 配方 涉及 成 本 、 原 材料 来 源 (这 
与 运输 费用 也 有 关系 ) 与 消费 者 喜好 ， 即 市 场 前 途 问题 ， 
在 最 后 作 决 策 ( 即 选用 一 种 确定 的 配方 用 于 生产 ) 时 ， 统 
计 推 断 的 结果 自然 是 重要 的 .这 只 有 在 统计 学 家 、 专 业 
人 员 、 经 济 师 和 市 场 分 析 人 员 的 共同 参与 下 ,才能 作出 适 
当 的 决策 一 一 当然 ， 这 中 间 涉 及 到 的 问题 并 非 全 是 统计 
性 的 . 

到 这 里 ,我 们 已 说 明了 统计 学 是 干什么 事 的 .现在 把 
它 小 结 一 下 ,而 对 统计 学 提出 一 个 比较 完整 的 定义 ;统计 
学 是 一 门 科学 , 它 研究 怎样 以 有 效 的 方式 收集 .整理 、 分 
析 带 随机 性 的 数据 ,并 在 此 基础 上 ,对 所 研究 的 问题 作出 
统计 性 的 推断 ,直至 对 可 能 作出 的 决策 提供 依据 或 建议 . 
在 这 个 定义 中 ,有 两 点 在 上 文 未 作 仔细 交代 ， 一 是 < 有效 
的 方式 "一 语 的 含义 ,这 涉及 在 收集 数据 的 工作 中 具体 的 
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作法 问题 这 个 重要 问题 将 在 下 文 第 二 节 作 仔细 论 述 . 
二 是 “ 带 随机 性 的 数据 "一 语 的 含义 ， 对 概率 论 初步 知识 
略 知 一 二 的 读者 ,自然 明白 其 意义 ,下 文 我 们 还 将 略 加 解 
释 . 

此 处 引进 的 统计 学 定义 ,是 依照 《中 国 大 百科 全 书 
数学 卷 > 中 对 “数理 统计 学 "所 下 的 定义 ， 这 个 定义 与 《不 
列 匡 百科 全 书 》 上 关于 “统计 学 "的 说 法 ,基本 精神 也 是 一 
臻 的 .后 者 把 统计 学 定义 为 收集 和 分 析 数 据 的 艺术 .这 个 
定义 嫌 过 于 简略 一 些 .不 过 ,其 中 “分 析 ” 一 词 兼 有 我 们 定 
义 中 整理 .分 析 、 推 断 的 含义 . 它 没有 明确 指出 数据 应 带 
随机 性 ,这 是 一 个 弱点 ( 见 下 文 ) .至 于 此 定义 中 称 统计 学 
是 “艺术 " ,尽管 有 其 不 够 严谨 之 处 ， 却 也 有 独到 的 地 方 ， 
它 提醒 人 们 ， 统 计 学 并 不 是 一 堆 在 应 用 时 可 以 机 械 地 昭 
搬 的 公式 ,而 是 在 应 用 上 要 发 挥 灵 活性 以 至 灵感 ,需要 积 
累 充分 的 经 验 . 

按 这 个 定义 ,统计 学 是 一 门 与 数字 打交道 的 学 科 .在 
这 个 意义 上 ,可 以 把 它 看 成 是 数学 的 一 个 分 支 . 它 当然 不 
是 社会 科学 .还 有 一 点 要 着 重 说 明 : 像 这 样 定义 的 统计 
学 ,在 我 国 常 称 为 “数理 统计 学 *" .而 在 西方 ,“ 统 计 学 ?和 
“数理 统计 学 * 有 明确 的 区 别 ， 即 数理 统计 学 是 统计 学 的 
数学 理论 那 一 部 分 ， 所 以 ,在 我 国 ,数理 统计 学 等 于 西方 
的 统计 学 加 数理 统计 学 .其 所 以 产生 这 个 差别 ,与 苏联 对 
这 个 问题 的 看 法 有 关 . 在 苏联 ,把 统计 学 定义 为 一 门 研究 
大 量 社会 现象 的 社会 科学 ,有 很 强 的 阶级 性 和 党 性 ! 而 数 
理 统计 学 则 被 看 成 是 在 统计 学 中 使 用 的 数学 方法 及 其 理 

下 


论 基础 .这 个 看 法 对 我 国 至 今 仍 有 很 大 的 影响 ， 因 此 ,在 
我 国 至 今 仍 有 不 少 人 采取 这 样 的 看 法 ,统计 学 是 一 门 社 
会 科学 ,数理 统计 学 则 是 一 门 数学 学 科 . 

作者 不 打算 在 此 对 上 述 观 点 之 间 的 分 歧 发 表 评 论 . 
然而 ,读者 不 难看 出 ,本 书 是 按照 西方 的 观点 来 写 的 . 对 
此 持 异议 的 读者 可 以 这 样 看 待 本 书 ， 它 讨论 了 统计 学 与 
数学 有 关 的 那 一 部 分 . 

按 我 们 所 讲 的 方式 去 理解 统计 学 ， 自 然 地 得 出 它 的 
一 个 特点 : 它 是 通过 事物 的 外 在 的 数量 上 的 表现 ,去 揭示 
事物 可 能 存在 的 规律 性 . 它 不 能 确认 和 解释 ,为 什么 事物 
会 存在 这 样 或 那 祥 的 规律 性 ， 后 者 要 依靠 有 关 专 门 学 科 
的 研究 ， 不 过 ,在 探求 这 种 规律 性 的 解释 的 研究 工作 中 ， 
统计 方法 也 有 其 作用 .例如 ,用 种 种 统计 方法 对 一 些 统计 
资料 进行 分 析 的 结果 ， 都 使 人 相信 吸烟 者 中 患 肺癌 的 比 
率 较 高 ， 但 是 ,究竟 吸烟 是 引发 肺癌 的 一 个 原因 ,还 是 这 
二 者 都 受到 同一 遗传 基因 的 控制 ?如 果 是 后 者 , 则 统计 资 
料 分 析 的 结果 只 是 表明 这 二 者 有 一 种 先天 的 联系 ， 而 不 
表明 这 二 者 有 因果 关系 .要 确定 这 种 因果 关系 的 存在 , 需 
要 从 医学 上 和 弄 清 吸烟 引发 肺癌 的 机 制 问题 . 

统计 方法 的 这 个 特点 ， 划 清 了 统计 学 和 其 他 学 科 的 
界线 .例如 ,经 济 学 、 人 口 学 .社会 学 ,工程 学 ,生物 学 …… 
等 学 科 ,都 用 到 统计 学 提供 的 方法 .但 统计 学 在 这 些 学 科 
中 ， 只 起 着 一 个 辅助 性 质 的 作用 .统计 学 自 有 其 研究 对 
象 , 即 超脱 了 具体 含义 的 数据 的 收集 和 分 析 问 题 ， 当然， 
统计 方法 的 这 种 辅助 性 质 并 不 降低 它 的 意义 ,恰恰 相反 ， 
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由 于 事物 的 本 质 规律 性 往往 隐藏 很 深 不 易 为 人 们 所 察 
觉 ， 而 其 外 在 数量 上 的 表现 则 易于 引起 人 们 的 注意 ， 以 
此 ,统计 方法 在 揭示 事物 规律 性 的 过 程 中 , 常 能 起 到 先导 
的 作用 . 

按照 上 述 观 点 ,可 以 说 统计 方法 是 一 种 数学 方法 .在 
为 数 众 多 的 数学 方法 中 ,统计 方法 有 什么 特点 呢 ? 因 为， 
如 果 把 统计 学 说 成 是 一 种 处 理 数 据 的 数学 方法 , 那 末 , 它 
与 算术 ,一 般 讲 与 计算 数学 ,就 划 不 清 界线 ， 这 里 就 要 用 
到 前 面 给 统计 学 下 定义 时 所 加 的 那个 限制 词 ,随机 性 . 统 
计 学 是 处 理 带 随机 性 的 数据 的 问题 . 所 谓 随 机 性 〈 又 称 
偶然 性 ), 是 “随机 会 而 定 ” 的 意思 .从 实际 应 用 的 角度 去 
看 ,统计 学 中 考虑 的 数据 随机 性 有 两 种 形式 .一 种 形式 的 
例子 是 前 面 提 到 的 吸烟 与 肺癌 关系 问题 ， 以 及 大 学 毕业 
后 工作 10 一 30 年 的 人 员 的 收入 问题 .在 这 些 例子 中 ,总 
体 是 由 一 些 实在 的 个 体 (在 此 两 例 是 人 ) 组 成 ， 数 据 的 随 
机 性 来 源 於 ,那些 个 体 被 抽出 (以 组 成 样本 ), 是 随机 会 而 
定 . 举 一 个 极端 的 例子 .如 果 磁 巧 在 你 抽出 的 那 10,000 
人 中 ,大 多 数 都 是 工龄 短 而 工资 高 ,或 工龄 长 而 工资 低 的 
人 , 则 你 会 得 出 “工作 年 限 愈 长 ,收入 您 少 " 的 结论 . 虽 则 
“碰巧” 出现 这 类 情况 的 机 会 不 大 ,但 既是 抽查 ,你 在 逻辑 
上 恕 不 能 绝对 和 否定 其 可 能 性 .由 此 也 可 以 看 到 ,统计 推 上 断 
有 产生 错误 的 可 能 .事实 上 ,统计 推断 理论 中 的 一 个 重要 
课题 ,就 是 计算 在 种 种 情况 下 ,各 种 推断 方法 可 靠 的 程度 
如 们 

大 体 上 说 ,这 种 随机 性 是 与 “观察 "联系 在 一 起 的 . 另 
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一 种 形式 的 随机 性 则 与 “试验 相 联 系 . 简 言 之 ,就 是 常 说 
的 试验 误差 .例如 ,在 一 个 天 平 上 称 一 个 物件 ， 结 果 不 会 
与 物件 的 真实 重量 完全 相同 .误差 的 来 源 ,除了 一 些 较 重 
大 的 、 有 可 能 指认 的 原因 (如 天 平 没有 调 准 、 制 造 上 有 人 缺 
陷 之 类 ) 外 ， 还 有 大 量 的 无 法 指认 和 控制 的 偶然 性 因素 . 
例如 , 邻近 轻微 的 震动 ,操作 者 有 瞬间 心情 上 的 忱 恪 , 等 等 . 
这 使 得 重复 称 量 得 出 的 结果 不 尽 相 同 . 推 而 广 之 ， 在 工 、 
农业 试验 中 ,控制 在 一 定 条 件 下 (一 定 的 工艺 参数 ， 原 料 
配方 等 ) 做 试验 ,结果 不 尽 相 同 且 误差 无 从 预料 ， 这 都 表 
现 为 数据 中 的 随机 性 误差 ， 

“ 带 随 机 性 的 误差 ”一 语 , 在 数学 上 有 其 确切 的 含义 . 
确实 ,表面 上 看 ,数据 中 的 误差 ,好 像 全 然 是 杂乱 无 章 的 ， 
看 不 出 有 任何 规律 性 的 东西 .但 是 ,我 们 要 求 这 种 数据 在 
集体 上 显示 出 一 种 规律 性 ,通过 “概率 论 " 中 所 谓 *“ 概 率 分 
布 " 来 刻 划 . 由 概率 分 布 所 刻 划 的 规律 性 ,并 不 能 规定 或 
预言 数据 的 值 ,而 是 大 体 上 可 以 说 成 : 它 规定 了 这 种 数据 
产生 的 机 制 . 举 一 个 浅显 的 例子 .在 彩票 开奖 时 ， 淮 备 一 
个 不 透明 的 袋子 ,内 装 大 小 质地 一 样 的 10 个 球 ， 上 写 有 
0,1,… ,9 等 十 个 数字 . 彻底 搅乱 后 ， 由 一 个 蒙 上 眼睛 的 
人 抽出 一 个 ,登记 结果 后 , 放 回 去 再 彻底 搅乱 ， 再 让 他 抽 
一 个 .这样 可 以 一 直 继 续 下 去 ， 直 到 抽出 需要 的 个 数 为 
止 . 在 这 个 试验 中 ,每 步 的 结果 都 赁 机 会 ,无 法 预料 . 在 
这 一 点 上 说 ,无 规律 性 可 育 . 但 试验 的 操作 过 程 保证 了 ， 


每 个 数字 在 每 次 抽取 中 ,有 同等 的 机 会 (十 ) 被 抽出 .用 概 


14 


率 的 语言 说 ,每 次 抽取 时 ,结果 为 任 一 指定 数 的 概率 ， 都 
是 行 .或 者 说 ， 抽 取 的 结果 在 0,1,…,9 这 些 数字 上 旺 均 


匀 分 布 , 这 就 是 本 试验 中 ,数据 的 概率 规律 性 . 

确切 地 说 ,统计 学 理论 和 方法 ,是 建立 在 数据 具有 这 
种 概率 规律 性 的 假定 的 基础 之 上 的 . 不 满足 这 一 点 的 数 
据 , 无 法 用 统计 方法 去 处 理 . 但 在 每 一 具体 问题 中 ,即使 
我 们 有 理由 假设 这 种 规律 性 存在 ， 往 往 也 不 易于 确定 其 
形式 如 何 . 这 要 求 有 所 研究 问题 的 专业 知识 .经验 , 有 时 
则 多 少 是 一 种 数学 上 的 假定 .不 过 ,统计 学 上 也 发 展 了 一 
些 方法 ， 帮 助 我 们 根据 数据 提供 的 信息 去 确定 这 种 规律 
的 形式 , 即 数 学 模型 ,或 者 帮助 我 们 验证 ， 某 种 在 理论 上 
假定 的 数学 模型 是 否 与 实际 ( 即 数据 ) 相 符 . 另外 ， 也 有 
些 统计 方法 有 较 广 的 使 用 范围 ， 而 不 其 依赖 数学 模型 的 
确切 形式 . 

由 以 上 论述 ,不 难看 到 统计 学 与 概率 论 的 密切 关系 . 
尽管 也 有 些 统计 学 著作 ， 不 依赖 或 基本 上 不 依赖 概率 论 
的 概念 和 方法 ,但 这 些 闭 作 只 能 介绍 统计 学 的 一 些 方法 ， 
就 是 说 ,告诉 你 怎样 去 做 ， 一 涉及 这 些 方法 的 道理 ,还 得 
乞 灵 于 概率 论 . 总 之 ， 现 时 还 没有 找到 一 种 既 摆 脱 概率 
论 , 又 能 严密 完整 地 阐述 统计 理论 的 方法 ， 以 此 之 故 , 人 
们 第 说 慨 率 论 是 统计 学 的 基础 ,统计 学 是 概率 论 的 应 用 . 
这 个 说 法 正确 地 和 概 插 了 二 者 关系 的 基本 方面 . 不 过 应 当 
明确 ,统计 学 与 概率 论 是 两 个 平行 的 姊妹 学 科 ,并 无 高 低 ， 
从 属 之 分 .正如 解析 几何 学 中 大 量 使 用 了 代数 方法 ,但 由 
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— Fe 一 ar re -ti = er = eh TP Ee 


于 有 其 自身 的 问题 与 特点 ， 它 被 公认 为 一 门 不 从 属于 代 
数学 的 学 科 . 

关于 统计 方法 与 其 他 数学 方法 的 界线 划分 问题 ， 上 
面 的 论述 集中 在 “随机 性 "的 有 无 这 一 片上 (应 当 说 明 的 
是 ;在 有 些 数学 分 文 ,如 “运筹 学 "中 ， 也 常 讨论 涉及 随机 
性 的 问题 ， 这 应 理解 为 概率 统计 方法 在 这 些 学 科 中 的 应 
用 ,而 并 非 这 些 学 科 的 根本 性 特点 )， 现 举 一 个 更 实际 的 
例子 来 说 明 . 设 有 一 块 正 圆柱 形 的 均匀 木头 ， 其 比重 a 
和 高 凡 厘米) 都 假定 为 已 知 (不 带 误差 )， 现 想 要 知道 其 
半径 r， 但 身边 没有 尺子 ,只 有 一 把 种, 称 一 下 这 木头 ,得 
其 重量 A( 克 ), 于 是 由 公式 4A= abrr 算出 半径 


r= (厘米 )， 


若 秤 毫 无 误差 , 则 整个 解 题 过 程 ,不 过 是 一 个 几何 公式 的 
应 用 ,与 统计 学 无 关 . 反 之 , 若 称 量 结果 有 随机 性 误差 (一 
般 当 然 剖 如 此 )， 而 我 们 在 精度 要 求 上 又 较 高 , 则 需要 把 
这 木头 重复 称 者 二 次 ,得 结果 Ai,…,A,， 以 样本 平均 值 


作为 本 头 真实 重量 A 的 估计 值 . 然后 ,用 
/A 
“Naz 


作为 半径 r 的 信 计 值 ， 在 这 里 ， 统 计 方 法 就 参与 了 解 题 
过 程 . 例如 , 用 4 估计 和 44， 是 统计 上 惯用 的 方法 . 尤其 
是 ,用 了 信 计 ?r 的 误差 如 何 , 需 通过 用 4 估计 4 的 误差 
及 关系 式 


- A 
去 考察 . 这 也 涉及 概率 论 和 统计 学 的 方法 . 

在 结束 这 一 节 之 前 ， 还 想 在 统计 学 与 数学 的 关系 这 
个 问题 上 补充 几 句 . 统计 学 与 概率 论 之 密切 关系 已 如 上 
述 ; 概 率 论 是 数学 的 一 个 分 支 , 这 一 点 ,数学 各 分 文 (包括 
慨 率 论 ) 的 学 者 都 无 异议 ;至 于 统计 学 是 否 应 称 作 是 数学 
的 分 支 , 情 况 就 较 复 杂 一 些 ， 我 们 搬 开 那 种 认为 “统计 学 
是 一 门 社会 科学 ”的 意见 不 谈 ( 承 认 这 一 点 ， 目 然 束 不 能 
认为 它 是 数学 的 一 个 分 支 ), 现 结合 作者 本 人 对 这 个 问题 
的 想法 提供 几 点 意见 , 供 读 者 参考 . 

1， 如 果 把 数理 统计 学 理解 为 其 狭义 解释 , 即 它 是 统 
计 方 法 的 数学 理论 基础 部 分 ， 则 它 可 视 为 数学 的 一 个 分 
文 ， 这 一 点 ,在 中 外 统计 学 家 ,包括 那些 认为 统计 学 是 社 
会 科学 的 学 者 中 ,似乎 是 没有 分 歧 的 . 

2. 如果 把 数理 统计 学 按 我 国 一 般 习 惯 上 所 作 的 那 
种 广义 解释 , 即 西方 意义 下 的 统计 学 (以 收集 和 分 析 数 据 
为 任务 ), 则 既然 所 涉及 的 数据 已 超脱 了 具体 含义 ， 把 这 
种 较 广 意义 下 的 数理 统计 学 理解 为 数学 的 一 分 支 ， 春 来 
也 还 是 恰当 的 . 的 确 , 现 在 有 一 派 观点 ,主张 不 拘泥 于 数 
学 模型 ,而 主张 依靠 电子 计算 机 等 先进 工具 去 处 理 数据 ， 
提取 有 关 信 息 ， 以 探求 适用 面 更 广泛 的 方法 . 但 如 这 一 
切 需 要 上 升 为 理论 和 系统 化 ， 恐 恰 终 完 不 能 不 借助 于 数 
学 理论 . 如 说 它 目 成 一 实体 ， 则 其 确切 性 质 如 何 ， 需 要 
说 明 ， 
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3. 可是， 在 作为 现代 统计 学 发 源 地 的 英国 ( 约 自 本 
世纪 初始 )， 以 及 在 目前 统计 学 最 发 达 的 美国 (其 统计 学 
大 规模 发 展 大 致 始 于 本 世纪 三 十 年 代 ) ,统计 学 一 直 是 在 
不 从 属于 数学 的 情况 下 发 展 起 来 的 .他 们 在 很 早 的 时 候 ， 
就 在 大 学 里 建立 了 与 数学 系 并 列 的 统计 系 ， 成 立 了 专门 
的 学 会 与 研究 所 ， 出 版 了 多 种 统计 学 的 专门 杂志 .这些 
表明 他 们 是 把 统计 学 看 成 与 数学 并 列 的 学 科 ， 造 成 这 种 
情况 的 原因 不 在 此 细 论 ,不 过 ,这 更 多 的 是 与 怎样 能 使 统 
计 学 得 到 更 好 的 发 展 有 关 ， 还 不 能 看 作 是 西方 统计 学 界 
对 “统计 学 与 数学 的 关系 的 性 质 如 何 ” 这 个 问题 的 回答 
实际 上 ， 在 西方 统计 学 家 的 著作 中 ， 不 大 直接 涉及 这 个 
问题 . 

在 我 国 ,统计 学 究竟 是 数学 的 一 个 分 支 ,还 是 与 数学 
并 列 的 一 个 学 科 的 问题 ,也 在 逐渐 引起 人 们 的 关心 .不 时 
听 到 有 关 这 问题 的 种 种 议论 .然而 ,尽管 这 无 疑 在 理论 上 
是 一 个 重要 而 有 趣 的 问题 ,但 更 现实 的 问题 是 ,统计 学 的 
发 展 以 采取 怎样 的 组 织 形式 为 好 .这 里 面 有 些 是 随 着 学 
科 的 自然 发 展 而 解决 的 ,有 些 则 涉及 某 些 政策 上 的 问题 . 
这 话 离 题 太 远 ,不 属 本 书 范围. 


” 二、 抽样 调查 与 试验 设计 


在 第 一 节 已 说 过 ， 统 计 学 的 任务 是 有 效 地 收集 资料 


je 


( 即 数 据 ) ,并 对 之 进行 处 理 (整理 、 分 析 、 推断 等 )， 本 节 
将 对 前 一 任务 作 较 仔细 的 讨论 . 

我 们 曾 指 出 ,收集 资料 有 两 种 方式 :观察 和 试验 .与 
此 相应 ,在 统计 学 中 产生 了 两 个 分 文学 科 ， 一 旦 “抽样 调 
查 或 “抽样 技术 ”, 一 号 “试验 设计 . 因此 ， 我 们 也 就 分 
这 两 个 专题 来 介绍 . 


1. 抽样 调查 

前 面 提 到 的 关于 大 学 毕业 后 工作 10~30 年 的 工作 
人 员 收 入 状况 问题 ,可 用 来 解释 一 般 的 概念 . 先 把 有 关 之 
点 列举 出 来 ; 

1. 我 们 的 研究 工作 所 关心 的 个 休 , 有 一 个 明确 的 范 
围 .每 一 个 体 是 一 个 “看 得 见 , 摸 得 着 ”的 实体 . 

2. 所 有 这 样 的 个 体 组 成 一 个 总 体 . 这 总 体 所 含 个 
体 , 尽 管 为 数 甚大 ,但 仍 是 有 限 的 . 

3. 我 们 所 关心 的 ,其 实 并 不 在 于 每 一 个 体 本 身 ， 而 
在 于 它 的 某 些 指标 值 . 

如 在 此 处 ， 关 心 的 是 两 个 数字 ， 毕 业 后 工作 了 多 少 
年 ,目前 月 工资 如 何 . 

4. 研究 的 目的 是 弄 清 该 总 体 的 区 种 性 质 . 比 如 ， 这 
批 人 平均 工资 如 何 , 工 资 散 布 的 程度 (不 齐 性 ) 如 何 ,或 一 - 
般 地 说 ,各 种 年 限 内 部 工资 分 散 的 程度 如 何 , 不 同年 限 间 
分 敬 程 度 如 何等 等 .要 明确 的 是 ;尽管 这 些 性 质 离 不 开 每 

一 个 体 的 指标 值 ， 但 它 是 有 关 这 全 体 指 标 值 的 一 种 集体 
性 质 , 不 从 属于 任 一 特定 的 个 体 ， 
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5. 由 于 总 体 中 记 仿 个体 数 太 多 ,无 法 对 之 一 一 作 调 
查 , 而 只 能 抽取 其 一 部 分 作 调 查 ,以 其 结果 去 推断 上 面 第 
4 条 中 提 到 的 那些 性 质 . 

最 后 这 一 条 ,是 我 们 目前 讨论 的 对 象 ， 但 应 当 了 解 ， 
其 余 儿 条 也 不 总 是 不 言 自明 地 容易 处 理 的 .例如 ,考察 怎 
样 的 指标 与 我 们 研究 的 问题 最 贴切 ? 就 本 例 来 说 ， 是 只 
不 其 正式 工资 收入 为 好 ， 还 是 把 其 他 收入 也 考虑 考 进来 
为 好 ? 表面 上 看 ,后 者 似 平 较为 合理 . 但 是 ,各 人 目前 非 
工资 收入 该 如 何 定 , 能 和 否 比较 确切 地 调查 出 来 ,还 有 ， 有 
些 人 的 某 种 收入 (如 既是 职工 又 经 商 ) 与 其 学 历 和 工龄 似 
乎 无 关 , 是 否 也 该 计 入 ,等 等 ， 这 些 都 是 问题 ， 且 这 样 一 
来 ， 工 作 量 势必 大 大 加 重 . 其 次 是 调查 的 技术 . 如 所 调 
查 的 指标 涉及 被 调查 者 私人 的 状况 或 看 法 ， 你 如 何 使 他 
无 顾虑 地 把 真实 情况 提供 出 来 . 在 理论 上 上， 我们 假定 的 
模型 是 ， 每 一 个 体 有 一 个 或 多 个 已 知 而 确定 的 指标 值 与 
之 相 联 ,但 在 实际 中 决 没有 这 人 么 简单 . 第 三 ,总 体 范围 该 
定 得 多 大 . 太 小 则 研究 结论 适用 面 很 窄 , 太 大 则 有 人 力 、 
物力 等 问题 . 以 上 这 些 问 题 的 妥善 考虑 与 处 理 ， 都 关系 
到 研究 工作 的 成 败 或 成 功 程度 . 

在 作 了 这 些 交 代 后 ， 我 们 来 讨论 上 述 第 5 条 中 提出 
的 抽样 问题 .这 方面 的 材料 虽 被 写成 整 本 的 大 著作 ,但 从 
原则 上 看 说 来 却 很 简单， 统计 学 根据 人 类 在 这 方面 长 期 
积累 的 经 验 , 配 合 概率 论 理论 上 的 要 求 ,提出 了 一 条 基本 
要 求 ,抽样 要 保证 对 每 一 个 体 “ 机 会 均等 ” , 即 总 体 中 每 一 
个 体 有 辐 样 的 机 会 被 抽 到 , 谁 也 不 占 优先 .凡是 适合 这 个 
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原则 的 抽样 ,在 统计 学 上 叫做 “随机 抽样 ”我 们 设想 一 种 
实现 这 种 抽样 的 具体 作法 如 下 : 议 总 体 中 共有 AN 个 个 
体 ,需要 抽出 到 个 ,把 这 有 个 个 体 分 别 编 号 为 1，2，…， 
N .准备 N 个 大 小 .质地 一 样 的 球 , 分 别 在 其 上 书写 数字 
1，2，…， 六 ,将 它们 放 在 一 个 不 透明 的 口 安 中 ， 彻 后 挽 
乱 后 ,从 中 一 次 抽出 n 个 ,或 一 次 抽 一 个 ,抽出 的 不 再 放 
回 ,直到 抽 满 个 为 止 .凡是 其 编号 在 抽出 的 那些 球 上 的 
个 体 ,组 成 我 们 的 样本 .在 这 种 抽 法 十 ,每 一 个 体 只 能 在 
样本 中 出 现 一 次 ， 因 而 称 为 “无 放 回 的 抽样 ". 也 容易 看 
到 ， 从 以 个 个 体 中 (不 放 回 地 ) 抽 个 , 不同 的 结果 有 


种 ,它们 都 具有 同等 的 出 现 机 会 . 这 比 只 要 求 每 一 个 体 
有 同等 机 会 被 抽 到 要 更 进一步 ， 为 表达 这 些 性 质 ， 在 统 
计 学 上 有 时 把 这 种 抽样 叫做 “无 放 回 简单 随机 抽样 ”. 
在 实际 应 用 中 ,抽样 几乎 都 是 无 放 回 的 , 即 要求 同 一 
个 体 不 能 在 样本 中 重复 出 现 . 车 因为 某 种 原因 需要 破除 
这 一 限制 , 则 必须 一 个 一 个 地 抽 , 每 次 抽出 球 后 ， 登 记 其 
上 的 数字 , 放 回 袋 中 ,彻底 搅乱 再 抽 下 一 个 ， 直 到 抽出 nn 
个 为 止 . 这 种 抽样 叫 $ 有 放 回 的 "其 样本 大 小 n 可 以 超 
过 总 体 所 含 个 体 数 NN. 在 无 放 回 抽样 时 ， 当 然 有 n<N. 
有 放 回 的 抽样 在 理论 上 比 无 放 回 抽样 简单 ,， 且 在 比值 
n/N 其 小 (例如 ,不 超过 0.05) 时 ,两 种 抽样 方式 的 差别 ， 
从 实际 观点 看 并 不 重要 . 因此 ， 有 放 回 抽样 在 抽样 理论 
中 占有 一 遍地 位 ， 
21 


如 果 总 体 中 所 含 个 体 数 很 大 ， 则 按 上 述 “ 口 袋 模型 * 
去 操作 ,很 不 方便 . 为 克服 这 个 困难 ,人 们 设计 了 一 种 叫 
“随机 数 表 "的 东西 ， 来 代替 这 个 口袋 . 不 妨 设 想 ， 在 一 - 
个 口袋 中 放 了 10 个 球 , 其 上 分 别 书 写 0,1,…，,9 这 10 个 
数字 ， 然 后 有 放 回 地 一 个 一 个 地 抽 球 《每 次 抽 后 彻底 搅 
乱 ), 并 将 其 上 的 数字 依次 排列 在 一 本 书 的 各 页 上 ， 就 成 
为 一 本 随机 数 表 . 比如 下 表 是 一 本 随机 数 表 之 一 页 的 一 
部 分 ， 


05 26 93 70 60 
09 97 10 88 28 
68 71 86 85 85 
26 99 61 65 58 
68 65 52 14 75 


17 53 77 583 71 
90 26 59 21 19 
41 23 52 55 99 
60 20 50 81 69 
91 25 38 05 90 


B84 50 57 74 B87 
85 22 04 39 43 
09 79 18 77 48 
88 75 80 18 14 
90 96 28 70 00 


22 85 85 15 18 
09 98 42 99 时 
54 78 32 08 11 
58 87 78 80 70 
87 59 86 22 41 


71 41 61 50 72 
23 62 28 88 12 
81 04 49 69 96 
81 99 78 68 68 
94 58 28 41 86 


98 80 88 00 91 
73 81 53 94 79 
73 82 57 22 21 
22 95 75 43 49 
39 00 08 06 80 


92 08 561 59 77 
61 71 62 99 15 
12 44 95 92 58 
42 10 50 67 42 
26 78 63 06 55 


12 41 94 96 26 
96 98 02 18 89 
10 47 48 45 88 
85 81 88 08 76 
45 37 59 08 09 


09 77 98 19 72 
38 62 46 85 28 
05 08 27 24 88 
39 82 82 12 49 
55 85 78 81 36 


59 58 78 06 83 
06 51 29 16 93 
16 29 56 24 29 
82 17 55 85 74 
13 08 27 O01 50 


44 95 27 86 99 
07 02 18 89 10 
47 48 45 88 85 
41 53 03 96 81 
90 85 57 29 12 


74 94 80 04 04 
08 81 54 46 3 
72 89 44 05 60 
02 48 07 70 7 
94 87 80 69 52 


设想 总 体 中 包 食 70 个 个 体 ， 要 无 放 回 地 抽出 10 个 把 

这 70 个 体 自 1 至 70 编号 后 ,随意 翻 开 随机 数 表 ,用 手 任 

意 在 上 面 一 指 , 设 指 到 “13” ， 则 用 该 天 的 第 13 页 ， 设 即 

为 此 处 列 出 的 那 一 页 ， 把 两 列 合并 自 上 至 下 ， 自 左 至 右 

读 去 ,依次 得 05,09,68,26,68,17,90,…、 其 中 68 出 现 

两 次 ,只 取 其 中 一 个 ( 因 不 放 回 ); 90 因 大 于 70 ,也 不 要 ， 
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按 这 个 方式 ， 得 到 05,09,68,26,17,41,60, 34, 65，53.， 
即 抽 出 了 以 这 些 数 为 编号 的 个 体 ， 若 总 体 中 所 含 个 体 数 
在 100 到 999 之 间 ， 则 需 合 并 三 列 ， 余 类 推 . 当然 ， 使 
用 随机 数 表 并 不 能 免除 将 总 体 中 的 个 体 加 以 编号 这 个 胖 

对 有 些 人 来 说 ,总 感到 随机 抽样 这 种 思想 难于 接受 . 
他 们 认为 ， 既 然 所 要 达到 的 目标 ， 是 使 抽出 的 那些 个 体 
(样本 ) 能 够 尽 可 能 地 代表 整个 总 体 的 情况 (这 是 正确 
的 ) , 那 末 ,通过 有 计划 的 、 自 觉 的 安排 .而 不 委 之 于 随机 
性 , 岂 不 能 更 好 地 实现 这 一 点 . 问题 在 于 ,这 种 作法 难于 
免除 一 般 人 都 多 少 会 有 一 些 的 主观 偏见 ， 特 别 是 在 研究 
者 希望 得 到 某 种 结论 时 ,更 是 如 此 .另外 ,除非 总 体 所 含 
个 体 数 六 很 小 (这 时 ,抽样 调查 大 概 没 有 必要 )， 人 们 很 
难 掌握 总 体 中 的 个 体 的 有 关 情 况 ， 而 人 为 的 安排 可 能 时 
致 重大 偏差 . 反之 ,根据 概率 论 中 的 大 数 定律 ,随机 抽样 
的 方式 , 保证 了 当 样 本 大 小 n 较 大 时 ， 总 体 中 具有 各 种 
性 质 的 成 分 ,各 按 其 比率 均衡 地 出 现在 样本 中 ,因而 在 这 
个 无 形 的 “自然 调节 ”中 实现 了 所 企 求 的 代表 性 .实际 应 
用 的 经 验 也 证 明了 这 一 点 . 

工作 中 的 图 方便 ,以 及 考 虚 不 周 , 人 往往 是 破坏 抽样 的 
随机 性 的 重要 原因 . 如 派 某 甲 去 一 个 内 调 查 农民 收入 情 
况 , 他 为 图 方便 ,只 在 县 里 交通 较 便 利 的 河流 、 公 路 沿线 
挑选 若干 户 作 了 调查 .由 于 交通 方便 的 地 方 ,农民 收入 一 
般 也 较 高 ， 某 甲 的 抽样 调查 结果 将 不 能 反映 全 县 农民 的 
真实 情况 .下 面 是 一 个 著名 的 例子 :1936 全 美国 大 选 , 由 
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民主 党 人 罗斯 福 对 共和 党 人 兰 登 .美国 有 一 家 著名 杂志 
作 了 大 规模 的 民意 测验 ， 共 调查 千 万 人 以 上 ， 作 出 回答 
的 二 百 余 万 人 ， 据 其 结果 ， 该 杂志 预言 兰 登 将 以 压倒 优 
势 获 胜 . 事实 上 ， 结 果 完 全 相反 ， 罗 斯 福 以 压倒 优势 胜 
兰 登 .原因 在 于 ,该 杂志 是 从 电话 号 码 禾 和 俱乐部 名 册 
等 去 选择 被 调查 者 , 这 类 人 多 属于 富有 阶层 ,倾向 共和 党 
者 多 . 为 外 ， 大 量 的 “无 反应 "情况 ( 约 八 百 万 人 ) 也 造成 
了 显著 的 偏差 .这 后 一 点 ， 在 抽样 调查 工作 中 是 值得 注 
意 的 . 

根据 情况 的 需要 ,在 实际 运用 时 ,上 述 简单 随机 抽样 
方案 有 时 要 作 些 变通 .重要 的 有 以 下 两 种 ， 

一 是 集团 抽样 . 即 先 把 总 体 中 的 全 部 个 体 , 按 某 种 
考虑 分 成 一 些 大 集团 . 每 个 大 集团 内 又 可 分 为 若 于 个 小 
集团 ,后 者 还 可 以 再 细 分 .抽样 时 , 先 用 随机 化 的 方法 抽 
取 著 干 个 大 集团 ,再 在 抽出 的 每 个 大 集团 内 ,分 别 抽出 车 
于 个 小 集团 …… 这 样 下 去 ,最 后 在 最 低 一 级 的 集团 中 , 随 
机 抽出 若 于 个 体 ， 这 样 抽出 的 全 部 个 体 ， 构 成 我 们 的 样 
本 .这 种 作法 ,是 为 了 防止 样本 中 的 个 体 在 地 域 上 过 于 分 
若 , 而 过 分 地 加 大 了 工作 量 . 举例 言 之 , 设 要 通过 抽样 调 
查 去 了 解 某 县 农民 收入 情况 ,该 县 农户 以 十 万 计 , 计 划 从 
其 中 抽出 400 户 . 知 按 简单 随机 抽样 的 方式 去 抽 ， 则 这 
400 户 可 能 散布 在 全 县 每 一 角落 ,逐一 访问 至 为 不 便 . 为 
缓和 这 一 点 ,可 改 用 如 下 的 抽 法 : 先 在 全 县 随机 抽出 若干 
个 乡 ; 在 抽出 的 每 个 乡 中 ,各 随机 抽出 若干 个 村 ;最 后 ,在 
抽出 的 每 个 村 中 ,各 随机 抽取 若干 农户 。 这样 ,最 后 抽出 
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的 农户 相对 集中 一 些 , 而 又 不 甚 影 响 随机 性 .在 涉及 到 全 
国 规模 的 抽样 调查 中 ,这 种 作法 更 不 可 锡 ， 

二 是 “分 层 , 按 比例 ”. 举例 言 之 , 设 要 了 解 目前 大 学 
教师 的 收入 情况 ,在 全 国 , 这 种 人 以 十 万 计 ， 而 我 们 只 能 
调查 其 一 小 部 分 ,例如 1000 人 .在 使 用 随机 抽样 方法 时 ， 
由 于 抽取 的 量 (1000) 不 算 很 大 ， 大 数 定律 的 均衡 作用 未 
能 充分 发 挥 , 于 是 在 样本 中 ,可 能 会 出 现 各 阶层 人 员 的 比 
例 与 总 体 中 的 比例 有 相当 偏离 的 情况 ， 而 这 就 会 影响 样 
本 的 代表 性 . 例如 , 若 在 样本 中 老 教授 偏 多 , 则 调查 结果 
将 偏 高 .为 补救 这 一 点 ,设计 了 “分 层 , 按 比例 ”的 抽 法 :把 
大 学 教师 按 现行 职称 序列 分 别 助 教 . 讲 师 、 副 教授 、 教 授 
四 层 . 设 已 知 这 四 层 的 人 数 比 例 大 概 是 15%、50%、 
30% ,5%( 这 是 随意 假设 的 数字 )， 预定 抽出 1000 人 , 按 
上 述 比 例 , 各 层 应 抽出 人 数 为 助教 1000 x 15% =150 人 ， 
讲师 .副教授 ,教授 分 别 500 人 、300 人 和 50 人 .然后 , 在 
各 层 内 ,用 简单 随机 抽样 的 方法 ,抽出 所 斋 的 人 数 ， 抽 出 
的 属于 各 层 的 人 即 组 成 样本 . 

在 这 一 抽样 方案 中 , 既 有 计划 的 部 分 ,又 有 随机 会 而 
定 的 部 分 .计划 部 分 (分 层 , 按 比例 ) 对 机 会 的 影响 和 作用 
作 了 “宏观 ”上 的 控制 ,而 在 “微观 "(各 层 内 ) 上 , 则 让 机 会 
起 调节 作用 . 

这 种 作法 的 目的 ,不 言 而 喻 ,是 为 了 限制 机 会 的 破坏 
作用 ,以 使 样本 达到 更 好 的 代表 性 .必须 指出 ,这 与 前 面 
批评 过 的 那 种 按 主观 指定 样本 的 作法 , 毫 无 共同 之 处 .这 
里 的 分 层 , 是 有 客观 依据 的 ,并 非 由 人 们 主观 上 党 得 如 何 
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而 定 . 不 过 ,为 保证 这 方法 有 效 , 有 两 个 条 件 :一 是 分 层 的 
标准 应 合理 .比方 说 ,在 此 例 中 , 若 不 按 职称 分 层 而 按 学 
科 分 层 ， 或 按 省 分 层 ， 则 因 各 学 科 或 各 省 大 学 教师 的 工 
资 差别 不 大 ， 这 种 分 层 就 无 益 . 二 是 每 层 所 含 个 体 数 在 
总 体 全 部 个 体 数 中 所 占 比 例 必须 比较 确切 地 知道 .车 不 
然 , 而 由 人 主观 想象 定 一 个 比例 , 则 反而 会 引进 系统 性 的 
偏差 . 例如 ， 错 误 地 把 “教授 这 一 层 的 比例 定 为 50%， 
”而 在 样本 1000 人 中 包含 进 500 名 教授 ， 结 果 会 系统 地 
偏 高 . 

这 个 例子 的 思想 ,直接 推广 到 一 般 情况 :分 层 的 标准 
是 ,使 每 层 内 各 个 体 指 标 值 变化 尽量 小 ， 而 不 同 层 之 间 ， 
个 体 指 标 值 的 变化 尽量 大 .能 实现 这 一 点 ,就 是 成 功 的 分 
层 方 法 . 另外 ,分 层 法 与 集团 抽样 可 以 联合 使 用 :每 层 内 
可 以 分 集团 ,集团 内 也 可 以 分 层 . 用 这 种 方式 ,就 可 以 构 
造 出 种 种 复杂 的 抽样 方案 . 当然 ,抽样 方案 的 选 定 ,要 考 
虚实 际 问 题 的 条 件 和 需要 . 


2. 试验 设计 

一 般 的 提 法 如 下 ， 有 一 个 (或 几 个 ) 我 们 感 兴趣 的 指 
标 , 如 工 ,农业 产品 的 质量 或 数量 ， 以 及 若干 个 我 们 选 定 
的 ,对 此 指标 可 能 有 影响 的 因素 或 变量 ,试验 的 目的 是 考 
察 这 些 因素 与 指标 的 关系 .如 某 一 因素 对 指标 有 无 影响 ， 
影响 多 大 ， 各 因素 处 在 何 种 状况 下 对 指标 值 最 有 利 ， 等 
等 .例如 ,在 种 植 玉米 时 ,有 四 个 品种 和 三 种 肥料 可 供 选 
用 . 则 这 试验 中 有 两 个 因素 :一 是 种 子 品 种 , 它 有 4 个 不 
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同 的 状态 ， 每 个 状态 ( 即 一 种 具体 的 品种 ) 称 为 品种 这 因 
素 的 一 个 水 平 , 故 品 种 这 因素 有 4 个 术 平 ( 称 为 4 水 平 因 
素 ); 一 是 肥料 , 它 有 三 个 水 平 .本 试验 i 二 指标 值 可 定 为 亩 
产量 ( 帮 数 )， 试验 的 目的 是 弄 清 不 同 种 子 品 种 与 肥料 对 
产量 有 无 影响 ,多 大 影响 ,如 何 选 择 这 了 两 因素 的 各 一 个 水 
平 , 使 产量 最 高 ,等 等 . 

(一 ) 单 因 素 试 验 

只 包含 一 个 因素 的 试验 , 称 为 单 因 素 试 验 ; 否 则 ， 称 
为 多 因素 试验 (具体 有 二 因素 试验 ,三 因素 试验 等 ). 下 面 
先 讨 论 单 因 素 试 验 的 设计 问题 . 

先 由 种 种 考虑 (所 要 求 的 精度 ， 人 力 物 力 条 件 等 ) 定 
下 总 的 试验 次 数 nn. 把 这 次 试验 分 配给 因素 的 各 水 
平 ,在 可 能 的 条 件 下 ,总 是 平均 分 配 .如 n=15, 因 素 有 3 
水 平 , 则 各 水 平 做 5 次 . 为 此 ,要 准备 15 份 试验 料 料 (或 
称 试验 单元 ) 一般, 设 有 c 个 水 平 (分 别 编号 为 1,2,….， 
c), 各 水 平分 别 预 定 作 Wi， 1 ，…，H。 次 ,有 Hi+Rs+… 
+ ,=n., 

设计 的 问题 ， 集 中 到 一 点 , 就 是 如 何 把 这 nn 份 试验 
单元 分 配 ( 按 Hi, Hs, 天。 的 数 月 ) 给 这 C14 个 水 平 . 例 
如 , 3 个 玉米 品种 ,准备 了 15 块 试验 田 ,每 品种 5 块 , 具 体 
如 何 分 法 .这 要 看 试验 单元 的 情况 而 定 . 由 于 这 一 点 , 产 
生 了 种 种 的 设计 方案 . 今 介绍 几 种 如 下 : z 

1. 完全 随机 化 设计 . 即 纯 粹 赁 机 会 去 分 配 试验 单 
元 .其 体 作 法 如 下 : 先 把 n 个 试验 单元 分 别 编 号 为 1，2， 
…，9. 然 后 用 随机 数 表 , 从 其 中 无 放 回 地 抽出 ns 个 给 水 

n 
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平 1, 再 在 剩 下 的 nn 一 ni 个 中 抽 ms 个 给 水 平 2， 等 等 . 具 
体 说 来 ,如 设 n=15, c=3, n=ns,=ns=5. 使 用 前 面 列 
出 的 那 员 随机 数 表 ,并 两 列 由 上 至 下 ,由 左 至 右 恋 ， 大 于 
15 (以 及 00) 不 要 ,重复 的 不 要 , 则 先 读 出 5,9,10,4,13. 
这 几 号 试验 单元 给 水 平 1. 再 往 下 读 , 挑 出 14,3,15,8,6 
这 几 号 试验 单元 给 水 平 2. 余 下 的 给 水 平 3. : 

这 种 设计 适合 于 各 试验 单元 条 件 比 较 均 匀 的 情况 . 
大 不 然 , 则 在 可 能 的 情况 下 ,应 采取 前 面 介绍 过 的 分 层 方 
法 , 见 下 文 . 

2. 完全 随机 区 组 设计 . 先 举 一 例 . 设 上 述 玉米 种 植 
试验 在 五 个 村 子 里 进行 ， 每 个 村 子 提供 3 块 面积 形状 一 
样 的 试验 田 .但 同一 村 的 三 块 地 条 件 较 均匀 ,而 不 同村 的 
地 块 条 件 差别 较 大 .这 时 ,车 用 完全 随机 化 设计 , 则 某 些 
品种 可 能 碰巧 都 分 给 条 件 较 差 的 村 子 里 ， 而 不 利于 该 品 
种 . 为 避免 这 一 点 ,我 们 把 每 村 子 里 那 三 个 试验 单元 作为 
一 “ 层 " ， 而 规定 在 每 一 “ 层 ? 内 ， 三 个 品种 必须 各 占 一 块 
地 ,至 于 那 一 个 占 那 一 块 , 则 由 随机 的 方式 决定 . 这 一 设 
计 安 排 , 就 免除 了 上 述 可 能 性 . 

我 们 把 一 层 内 的 三 个 试验 单元 , 称 为 一 个 “区 组 ” .一 
般 地 ,把 条 件 接 近 的 一 组 试验 单元 称 为 一 个 区 组 .车 因素 
有 K 个 水 平 , 则 每 个 区 组 必须 包含 K 个 试验 单元 ， 而 全 
部 n 个 试验 单元 应 能 分 解 为 了 个 区 组 ;n=kr .每 个 水 平 
在 每 一 区 组 内 恰 占 一 试验 单元 ;具体 占 那 一 个 , 则 纯 由 随 
机 化 确定 .这 种 试验 安排 ， 就 叫做 “完全 随机 化 区 组 设 
计 “完全 是 指 每 区 组 都 包含 K 个 试验 单元 ,而 即 为 
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因素 的 水 平 数 . 

这 种 设计 在 实用 上 很 常用 .这 是 因为 ,在 规模 较 大 的 
试验 中 ,要 弄 到 足够 多 的 均匀 的 试验 材料 ,不 是 易 事 “区 
组 一 词 在 实际 应 用 中 有 很 广 的 意义 .再 举 一 例 .为 比较 4 
种 原料 配方 的 优 劣 ,对 每 种 配方 ,各 准备 了 5 份 材料 作 试 
验 ， 而 参与 试验 的 有 5 人 ,其 操作 水 平 高 低 不 一 .为 避免 
因此 而 造成 的 误差 ,可 让 同一 配方 的 5 份 材料 中 ,每 人 各 
操作 一 份 ,具体 分 配 则 由 随机 化 确定 . 在 此 ,可 以 说 参与 
试验 的 每 个 人 都 构成 一 个 区 组 . 

3. 平衡 不 完全 随机 区 组 设计 ， 有 时 ,区 组 所 含 试验 
单元 数 t 小 于 因素 的 水 平 数 .这 时 ,无 法 在 每 一 区 组 内 
把 因素 的 各 水 平 都 做 一 次 试验 .这 种 区 组 称 为 “不 完全 区 
组 .在 前 述 玉米 种 植 试 验 中 ， 若 每 个 村 子 里 只 给 两 块 试 
验 地 ,就 有 一 个 不 完全 区 组 的 设计 问题 .这 种 设计 所 追求 
的 ,是 在 区 组 不 完全 的 困难 条 件 下 ,设法 达到 某 种 程度 的 
平衡 . 效 举 一 例 说 明之 .有 5 个 玉米 品种 ,在 10 个 村 子 里 
进行 试验 ,每 个 村 子 提供 3 块 大 小 形状 一 样 的 试验 田 .这 
时 , k=5, t=3. 考 虑 如 下 图 的 设计 安排 ， 


i pep 


~ | 


[sa1|llesz||sss| [a|[s rs) 
每 一 个 框框 内 的 三 个 数字 ,表示 同属 一 个 村 那 三 块 地 ( 即 
一 个 区 组 ) 所 种 植 的 三 个 品种 . 那个 “框框 ”分 配给 那个 
村 ， 每 个 村 内 那 三 块 地 如 何 分 配 ， 都 按 随机 化 的 方式 决 
定 . 细 察 这 个 设计 ,有 以 下 几 个 特点 ， 
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Q@ 每 区 组 中 都 含 3 个 不 同 的 水 平 ; 
@) 每 个 水 平 都 在 6 个 区 组 内 出 现 ; 
@ 任 一 对 水 平 在 同一 区 组 内 同时 出 现 的 次 数 都 是 


例如 ， 水 平 1.2 同 在 区 组 1.9.19 中 出 现 , 水 平 3.5 
同 在 区 组 2、4、5 内 出 现 ， 等 等 . 这 几 个 性 质 标志 了 一 种 
平衡 的 特点 . 叉 因 其 区 组 为 不 完全 , 且 在 区 组 内 实行 随机 
化 ,而 得 出 本 设计 的 名 称 平衡 不 完全 区 组 设计 ,简称 
LlB 设计 .如 上 所 述 ,一 个 BIB 设计 有 5 个 参数 ， 

Kk 一 一 因素 水 平 数 ， 

1 一 一 每 区 组 所 含 试 验 单元 数 , 常 称 为 区 组 大 小 ; 

2 一 一 区 组 数 , 在 此 例 为 108 

一 一 每 个 水 平 的 试验 次 数 ,在 此 例 为 6 

和 一 一 任 一 对 水 平 在 同一 区 组 内 同时 出 现 的 次 数 , 在 
此 例 为 3. 

这 5 个 参数 要 满足 一 些 条 件 ， 

bt=kr, Mk—1)=r(t -1), b>k. 

前 两 个 等 式 很 易 证 明 ， 后 一 不 等 式 是 试验 设计 的 葛 
基 者 费 软 耳 (了 R. A. Fisher) 得 到 的 ,证 明 比 较 困 难 . 而 且 ， 
这 三 个 关系 也 不 是 BIB 设计 的 存在 的 充分 条 件 . 直到 现 
在 ,这 个 问题 仍 未 完全 解决 . 

4. 拉丁 方 设计 . 先 说 明 什 么 叫 拉丁 方 . 考察 下 图 中 
由 数字 1,2,3 构成 的 三 阶 方 阵 ， 


30 


发 现 它 有 这 样 的 特点 : 在 每 一 行 及 每 一 列 肉 ， 数 字 
1,2,3 各 出现 一 次 . 因 这 个 性 质 , 称 这 个 方 阵 为 “三 阶 拉 
丁 方 ”. 对 任何 目 然 数 7, 不 难 构 造 出 1 阶 拉杆 方 . 例如 ， 
第 一 行 依次 写 1,，2,3,…, nn-1, .第 二 行 自 2 开始 ， 
余 类 推 ,如 图 所 示 , 即 得 一 个 1 阶 拉 村 方 . 


1 2 3B * 各 一 二 nn 
2 3 4 * . . Nn 1 
8 4 5 。 . . 1 2 


站 一 工 旬 1 。 。 ， 旬 一 8 %-2 
7 1 2 »* 


当 nn 较 大 时 ,不 同 的 nn 阶 拉丁 方 为 数 很 大 .现在 尚未 措 
清楚 这 个 数 的 确切 公式 ， 

拉丁 方 用 在 田间 试验 中 ， 起 着 所 谓 双向 区 组 ”的 作 
用 ,例如 ,有 三 个 玉米 品种 ,在 一 块 长 方形 的 试验 田 上 进 
行 试验 ,将 其 分 为 9 等 分 ,每 个 品种 占 3 块 . 在 这 块 地 的 
肥沃 程度 和 其 他 条 件 沿 两 个 方 同 剖 有 差异 ， 则 按 三 阶 拉 


丁 方 设计 如 图 ， 
211|8 
| 
| s|2 


则 任 一 品种 在 任 一 方向 上 都 不 占 优 势 . 在 工业 试验 上 拉 
本 方 设计 也 有 用 , 见 后 . 
上 面 讲述 的 各 种 设计 ,包含 了 三 个 要 所 ;一 是 分 区 组 
以 在 “宏观 ”上 控制 系统 误差 ;二 是 在 区 组 内 实行 随机 化 ， 
以 在 “微观 ”上 避免 主观 因素 引起 的 误差 三 是 实行 重复 
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( 即 每 一 水 平 做 若干 次 试验 ) 以 缩小 试验 误差 的 影响 .这 
就 是 费 歇 耳 提出 的 试验 设计 三 大 原则 .不 言 而 喻 ,这 些 原 
则 的 精神 也 可 用 于 多 因素 试验 *”“. 现在 我 们 就 转向 讨论 
这 种 试验 ， 

(二 ) 多 因素 试验 

车 试验 中 包含 N 个 因素 , 分 别 具 有 Ki、 ks、…, ky 
个 水 平 , 则 这 一 试验 称 为 一 个 ki x ksx… x kys 试验 . 车 
ka =…=Kv=K, 则 简称 为 kx 试验 . 试验 时 ,把 每 一 因素 
各 取 一 水 平 ,组 成 一 个 “处 理 ”， 将 其 施加 在 试验 材料 上 . 
如 前 面 提 到 过 的 那个 玉米 种 植 试 验 , 有 4 个 玉米 品种 ,3 
种 肥料 ,这 是 一 个 4x 3 试验 ,共有 12 个 处 理 . 每 一 处 理 
由 一 个 选 定 的 品种 和 肥料 组 成 ， 即 在 一 块 试验 地 上 种 植 
该 品种 并 施放 该 肥料 . : 

一 个 ki1X… Xx ky 试验 包含 t= kK，…-ky 个 处 理 . 
若 每 个 处 理 都 做 一 次 试验 , 则 称 为 本 试验 的 一 个 “全 面 实 
施 ”. 除非 N 和 Ki, …,kys 都 比较 小 , 则 上 将 相当 大 . 因 
此 ,在 多 数 情况 下 , 全 面 实施 是 不 现实 的 , 而 只 能 取 t 个 
处 理 中 的 一 部 分 去 做 , 称 为 “部 分 实施 ? .一 般 都 是 取 一 自 
然 数 d( 能 整除 们 ,而 取 t/d 个 处 理 做 试验 , 称 为 “1/d 部 
分 实施 ”. 部 分 实施 的 困难 之 处 ， 在 于 要 使 得 所 选 出 的 那 
一 部 分 处 理 , 在 各 因素 各 水 平 间 保持 一 定 的 平衡 **， 为 
明白 这 一 点 , 举 一 简 单 例子 , 设 有 A、B、C 三 因素 , 各 2 


*) 一 般 ,多 因素 试验 需要 做 的 “处 理 "( 意 义 见 下 文 ) 较 大 , 故 不 常 实行 重复 . 
**) 确切 含义 见 下 文 . 
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水 平 . 这 是 一 个 2* 试验 . 设 只 作 其 1/2 实施 . 把 每 一 处 
理 写成 (ijk) 的 形式 ， 表 示 A、B、C 的 水 平分 别 取 去 让 
_ k. 考虑 两 个 部 分 实施 方案 甲 、 乙 : 
甲 ，(111),(112),(121),(212) ， 
NX] XX, Xs Xs 
“ : (111),(212),(221),(122). 
yi ys ys Ya 
每 个 处 理 下 的 量 ,表示 该 处 理 的 试验 结果 .例如 ， x: 表示 
在 方案 甲 中 ,处 理 (111) 的 试验 结果 . 余 类 推 . 
设 用 方案 甲 ,而 需要 比较 因素 4 的 两 水 平 1,2 的 优 
劣 . 水 平 2 具有 一 个 试验 结果 ， 即 xs 水 平 1 虽 有 三 个 
试验 结果 ,但 可 与 xs 相 比 者 , 唯 有 xs*， 因 为 在 其 余 两 个 
试验 结果 中 ,所 涉及 的 因素 B,C 的 水 平 与 xs 的 不 一 样 . 
这 样 , 虽 做 了 4 次 试验 ,但 我 们 只 能 用 上 两 个 . 


若 用 方案 乙 , 则 这 个 比较 可 通过 于 (+ ys) - 于 (9 
+ ys) 去 进行 .因为 ,比方 说 ,在 六 (1+y4) 中 , 因 于 B、C 
的 水 平 1.2 各 出 现 1 次 ， 在 元 (ys+ ys) 中 也 如 此 ， 故 关 


二 (y + ys) -本 (9 +3y4) 只 反映 了 因素 A 的 1.2 水 平 的 
差别 ,B.C 的 作用 完全 抵消 了 .在 这 里 , 4 次 试验 结果 都 
用 上 了 ,其 所 以 能 做 到 这 一 点 ,是 因为 方案 乙 是 根据 一 定 
的 方法 选 出 ,保持 了 各 因素 各 水 平 之 间 的 平衡 . 
为 外 ,在 多 因素 试验 中 ,也 有 划分 区 组 的 问题 .这 种 
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划分 ， 辐 样 也 要 保持 各 因素 各 水 平 之 间 的 平衡 . 不然 的 
话 ,区 组 间 的 差别 就 会 与 因素 的 效应 混杂 起 来 ， 不 过 ,从 
原则 上 说 ， 划 分 区 组 的 问题 也 可 看 成 一 种 部 分 实施 的 问 
题 ， 因 为 ,只 须 把 “区 组 "本 身 作为 一 个 因素 ,其 水 平 数 序 
为 区 组 的 个 数 . 

那 末 ， 用 怎样 的 方法 可 以 实现 这 种 有 平衡 性 质 的 部 
分 实施 设计 呢 ? 这 里 介绍 两 种 常用 的 方法 ， 

1 拉丁 方 和 正 交 拉丁 方 ， 

拉丁 方 可 用 于 n* 型 试验 的 1/n 实施 . 这 包括 到 
型 试验 的 全 面 实施 , 但 分 nt 个 区 组 , 每 区 组 包含 n 个 试 
验 单元 ， 为 确定 计 ， 举 n=4 为 例 ， 选 定 一 个 4 阶 拉丁 
方 ,如 下 ， 


1 2 3 4 
2 1 4 3 
3 4 1 2 
4 321 


(1) 

设 有 3 个 因素 A,B,C ,都 是 4 水 平 ， 对 这 拉丁 方 中 的 每 
个 元 素 , 写 出 行 号 , 列 号 , 该 位 置 的 数字 . 例如 , 第 2 行 
第 3 列 处 数字 为 4, 故 上 述 三 元 组 为 (234). 依 此 方法 , 自 
第 一 行 始 ,全 部 16 个 三 元 组 为 : 

(111), (122), (133), (144), (212), 

(221), 《234)， 《243)， 《313)， (324), 

(331), (342), (414), (423), (432), (441). 
这 就 是 我 们 所 定 的 、 包含 全 部 处 理 数 4 =64 的 四 分 之 一 
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的 那个 部 分 实施 .仔细 检查 一 下 ， 会 发 现 它 有 这 样 的 性 
质 : 在 任 一 因素 的 任 一 指定 水 平 的 那些 处 理 中 ,其 余 各 因 
素 的 各 水 平 都 出 现 一 次 且 只 出 现 一 次 .例如 ,因素 吾 的 水 
平 2 在 2.6.10.14 等 几 号 处 理 中 出 现 . 在 其 中 ,因素 A 
的 水 平 1.2.3 .4 分别 在 2.6.10、14 号 处 理 中 , 因素 C 的 
水 平 1.2.3.4 分 别 在 6.2.14.10 号 处 理 中 . 这 就 是 我 们 
前 面 多 次 提 到 的 “平衡 ?性 的 确切 含义 . 由 于 设计 有 了 这 
种 平衡 性 质 , 当 任 一 因素 的 任 两 个 水 平 进行 比较 时 ,可 以 
把 包含 这 两 个 水 平 的 全 部 试验 结果 都 用 上 ， 且 不 受 其 他 
因素 的 干扰 ， 这 一 点 ,在 前 面 曾 作 过 解释 . 

如 果 只 有 两 个 4 水 平 因素 A、B, 但 要 分 4 个 区 组 
做 , 则 只 须 把 刚才 的 因素 C 看 作 区 组 ， 它 的 同一 水 平 的 

处 理 列 入 一 个 区 组 内 . 这 样 ， 由 上 述 设计 ,得 到 4 个 区 
组 的 划分 为 ， 

区 组 1， (11),(22),(33),(44); 

区 组 2， (12),(21),(34),(43); 

区 组 3: (13),(24),(31),(42); 

区 组 4:， (14),(23),(32),(41). 

它 具 有 如 下 的 特点 ;每 个 区 组 包含 A、B 的 4 个 水 平 各 1 
次 . 因此 , 任 一 因素 的 任 一 水 平 , 都 不 致 因 区 组 的 划分 而 
处 在 有 利 或 不 利 的 地 位 . 

各 因素 个 数 大 于 3, 或 等 于 3 而 要 分 区 组 , 则 一 个 拉 
丁 方 已 不 够 ， 必 须 使 用 几 个 具有 所 谓 “ 正 交 ” 关 系 的 拉丁 
方 . 例如 ， 前 面 的 4 阶 拉 丁 方 (1) 与 下 面 列 出 的 拉丁 方 
(2): 


¥- 
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构成 一 对 4 阶 正 交 拉丁 方 .“ 正 交 ? 的 意义 为 : 在 (1) 中 
同一 数字 所 占 移 4 个 位 置 ， 在 (2) 中 则 恰好 各 数字 都 出 
现 1 次 . 现 设 有 4 个 4 水 平 因子 A.B,C.D, 要 作 其 1/4 
即 1/16 部 分 实施 . 为 此 ,只 须 就 方 中 的 每 个 位 置 写 出 4 
元 组 ( 行 号 , 列 号 ,(1) 中 的 数 ,(2) 中 的 数 ) ， 例如, 对 第 2 
行 第 4 列 这 位 置 ,此 4 元 组 为 (2432) . 这 样 写 下 的 16 个 - 
处 理 ， 就 构成 所 要 的 部 分 实施 ， 如 果 只 有 三 个 4 水 平 因 
素 A、B、C, 但 要 分 4 个 区 组 ， 则 只 须 把 因素 DD 的 各 水 
平 作为 区 组 号 即 可 ,车 有 5 个 4 水 平 因素 ,而 要 作 1/4 
= 1/64 实施 , 则 要 用 到 三 个 互相 正 交 的 拉丁 方 . 例如 上 
文 的 (1)、(2) 及 此 处 写 出 的 (3). 这 是 最 大 的 个 数 : 1 阶 
的 正 交 拉杆 方 个 数 不 超 过 n 一 1. 


1 4 


2 
3 2 
1 3 
4 2 
(3) 

现 已 证 明 , 除了 n=2 和 6 外, 对 其 他 n, 都 至 少 有 
两 个 正 交 拉杆 方 .对 指定 的 n， 正 交 拉丁 方 的 个 数 问 题 
至 今 还 远 示 解决. 一 个 一 般 的 结果 是 : 若 n=p*, 其 中 p 
为 素数 , 则 有 nn 一 1 个 正 交 拉丁 方 . 这 解决 了 n<9 的 所 
有 人 情况 ,也 是 在 实用 上 最 有 用 的 情况 . 
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正 交 拉丁 方 的 概念 , 源 出 于 大 数学 家 欧 拉 (L. Euler) 
提出 的 一 个 问题 ,有 6 个 军种 ,从 每 军种 中 派出 上 校 、 中 
校 \ 少 校 、 上 尉 、 中 尉 、 人 少尉 军官 各 一 名 ， 要 把 这 36 名 军官 
排 成 一 个 方 阵 ， 使 每 一 行 及 每 一 列 都 有 各 军种 的 军官 一 
名 ,和 名 军衔 的 军官 一 名 .这 就 是 著名 的 “36 军 官 问题 *. 不 
难看 出 ,此 问题 等 价 于 找 两 个 6 阶 正 交 拉丁 方 .直到 1900 
年 ,' 才 有 人 证 明了 此 问题 无 解 . 

2. 正 交 表 

拉丁 方 只 能 用 于 各 因素 有 同一 水 平 的 情况 ， 且 因素 
个 数 至 多 只 能 是 水 平 数 加 1. 正 交 表 的 应 用 则 更 广 . 效 举 
两 例 来 解释 这 一 概念 . 


1234567 


111i1i1i11li1i1i 
111i2222 
1221122 
1l1222211 
2121212 
2122121 
2211221 
2212112 


1 
2 
3 
4 
5 
6 
7 
8 


表 有 AA: 正 交 表 Zas(27) 表 召 : 正 交 表 Ls(4 x 24) 


上 面 的 表 B 称 为 正 交 表 Le(4 x 24). 工 是 正 交 表 记 

号 ;8 是 行 数 , 它 表示 用 此 表 安 排 试验 时 ， 必 须 做 8 个 处 

理 ;“4 x2”” 表示 表 中 有 1 列 含 数字 1、2、3、4, 有 4 列 含 

数字 1.2. 这 表示 用 此 表 安 排 试验 时 ,至 多 只 能 容纳 1 个 
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4 水 平 因子 和 4 个 2 水 平 因子 . Le(27) 的 意义 类 推 ， 

这 种 表 称 为 “ 正 交 表 ”, 因为 它 有 以 下 两 条 性 质 : 

(i) 若 一 列 含 数字 1、2、…、r， 则 每 个 数字 含 同样 
次 数 (不 同 的 列 ,r 可 以 不 同 ) . 

(ii) 在任 一 列 含 同一 数字 的 各 位 置 处 ,其 他 任 一 列 
中 各 数字 都 有 , 且 含 同一 次 数 . 

例如 , 表 了 第 3 列 中 ,数字 1 在 第 2.4.6.8 行 ,而 在 
第 1 列 中 ， 相 应 位 置 处 数字 1,2,3,4 各 占 一 次 . 正 是 这 
两 个 性 质 , 保 证 了 当 用 这 种 表 作 部 分 实施 设计 时 ,能 保持 
平衡 性 . 我 们 只 举 一 简单 例子 说 明 这 表 的 用 法 , 设 有 4 
个 因素 A.B.C.D，4 为 4 水 平 ， 其 余 为 2 水 平 , 全 面 实 
施 有 4.23 = 32 次 试验 . 现 作 其 1/4 实施 , 即 8 次 . 为 此 ， 
只 须 把 因素 A 放 在 表 B 的 1 列 处 ,因素 B.C.D 则 可 随 
便 占 据 表 上 其 余 4 列 中 的 3 列 . 例如 , B.C.D 分 别 占 第 
2.3.4 列 . 这 一 步骤 叫 “ 表 头 设计 ”. 然后 , 按 行 读 出 表 头 
上 排 有 因素 的 位 置 的 数字 ， 且 按 4A.B.C.D 的 次 序 写 下 
来 ,得 (1222),(1111),(2221),(2112)， (3121), (3212), 
(4122),，(4211). 这 就 是 排出 做 试验 的 那 8 个 处 理 . 表 
的 正 交 性 保证 了 : 任 一 因素 的 任 一 水 平 的 那些 处 理 中 , 均 
衡 地 包含 着 其 余 各 因素 的 各 水 平 ， 因 而 在 比较 时 不 受 它 
们 的 影响 . 

可 以 证 明 ; 正 交 拉丁 方 不 过 是 正 交 表 的 特例 .至 于 在 
什么 情况 下 正 交 表 存 在 ， 如 何 构 造 出 来 等 问题 ， 限 于 篇 
幅 , 不 能 在 此 多 谈 了 . 
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三 、 数 据 的 整理 


通过 观察 或 试验 得 来 的 原始 数据 ， 一 般 是 杂乱 无 章 
的 ,难于 从 其 中 直接 看 出 有 意义 的 东西 . 于 是 ,对 原始 数 
据 一 般 尚 需要 加 以 整理 ， 以 便 把 我 们 感 兴趣 的 信息 提取 
出 来 ,并 用 简明 醒目 的 方式 加 以 表达 .整理 的 方式 有 二 ， 
一 是 对 原始 数据 进行 一 定 的 运算 ， 以 算出 某 些 代表 性 数 
字 , 足 以 反映 出 数据 某 些 方面 的 特征 ， 这 种 数字 ,在 统计 
学 上 被 称 为 “统计 量 ”， 用 数学 语言 说 ， 统 计量 就 是 样本 
( 即 数据 ) 的 函数 .如 样本 均值 ”就 是 一 个 常用 的 重要 统 
计量 .二 是 使 用 图 . 表 . 诸如 工厂 办 公 室 里 挂 着 的 记录 逐 
月 生产 状况 的 图 表 , 就 属于 这 一 类 . 一 般 , 设 有 数据 xi， 
xX，…，X,, 它 们 都 落 在 区 间 (a, 5) 内 ;在 (a,b) 中 插入 若 
干 分 点 ,把 它 分 为 车 干 份 : 
a=uo<ai<as <…<a_i<al=D. 

在 应 用 上 常 取 等 分 ， 但 也 不 必 非 如 此 不 可 . 对 每 个 区 间 
Cay-1, 04)， 算 出 X1，…, Xx, 中 落 入 到 这 区 间 里 的 个 数 
n, 及 频率 n,/n， 并 记 下 区 间 的 中 点 ， 就 可 以 列 成 一 张 
表 : 


一 


*) 在 统计 罕 中 , 习 蚀 二 把 从 样本 算 中 的 量 冠 以 "样本 "的 形容 汉 ,如 此 人 的 样本 
均值 ;及 下 文 的 样本 中 入 数 , 样 本 方差 每， 
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组 区 间 中 点 频 数 | 频 . 率 


(0 一 如 1 ( ao + Ci )/2 入 ] n/n 
Cad» COs + a2 )/2 2 先 2 /各 
i~—as (ari1+ af )/2 Nt /Nn 
Qi~a (arit+ari)/2 名 ! N71/ 


这 张 表 可 视 为 是 对 数据 的 分 布 情况 的 一 个 粗略 的 描 述 . 


分 组 愈 多 ,描述 愈 精细 .但 分 组 过 多 , 则 每 组 的 频数 很 少 ， 


难于 看 出 数据 的 趋势 ,失去 了 整理 的 原意 . 故 分 组 也 不 宜 
过 多 .一 般 , 当 数据 较 少 时 ,分 组 数 取 在 10 以 下 ;数据 较 多 
时 , 则 取 在 10 一 20 之 间 . 


也 可 以 把 这 张 表 转 化 为 一 张 图 ， 只 须 在 数 轴 上 标 出 


分 点 Qo，41，…， ,在 

每 个 区 闻 上 作 一 个 窍 os 

形 ， 使 其 面积 等 于 该 区 。n 

闻 欠 的 频数 或 频率 即 oo 
可 .如 右 图 所 示 . 这 种 图 “Tw or of 


常 称 为 “直方 图 ”. 


下 文 将 要 介绍 的 数据 的 获 点 图 及 回归 直线 ， 也 是 通 


过 图 形 来 表示 和 整理 数据 的 重要 方法 . 使 用 统计 量 和 使 

用 图 表 这 两 种 方法 之 间 有 联系 : 有 时 ,为 制作 某 种 图 表 ， 

需要 计算 一 定 的 统计 量 之 值 《下 文 的 回归 直线 是 一 个 例 

子 ); 反 之 ， 使 用 图 表 有 时 可 以 简便 地 算出 所 需 统计 量 的 

(近似 ) 值 .如 上 表 中 ,数据 平均 值 , 即 样本 均值 ,近似 地 为 
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严格 地 说 ,在 统计 学 理论 中 ,并 不 把 数据 整理 这 一 部 
分 作为 一 个 专题 或 独立 的 部 分 去 讨论 .原因 在 于 , 统计 理 
论 者 眼 于 统计 推断 ,而 对 数据 作 如 何 的 整理 , 即 需要 怎 尾 
的 统计 量 ， 要 看 推断 间 题 的 具体 形式 及 所 采用 的 数学 模 
型 而 定 .我 们 不 拘泥 于 这 一 点 ,以 便 遵 循 第 一 节 定 下 网 路 
线 来 叙述 ， 并 借 此 强调 一 下 统计 推断 与 对 数据 进行 单纯 
的 整理 之 加 的 差别 . 


1。 一 维 数 据 的 重要 统计 量 


虽说 统计 量 的 选择 依赖 于 特定 的 问题 ， 而 在 统计 实 
践 中 使 用 过 的 统计 量 多 得 不 可 胜 计 ， 但 统计 学 的 发 展 显 
示 , 有 少数 几 个 统计 量 有 极 广泛 的 应 用 ,经 常 出 现在 各 种 
问题 中 .本 节 其 余部 分 就 主要 对 这 些 作 一 介绍 . 先 考虑 一 
维 的 情况 , 即 我 们 只 关心 总 体 中 每 一 个 体 的 一 个 指标 值 ， 
如 人 的 身高 ， 若 同时 也 考虑 其 体重 ， 则 数据 将 是 二 维 
的 . 

一 类 重要 的 统计 量 是 用 来 刻 划 数据 的 平均 性 质 的 . 
其 中 最 重要 的 即 我 们 所 熟悉 的 样本 ( 即 数据 ) 均 值 ， 设 样 
本 为 xi，…，xu， 则 了 = 包 二 就 是 样本 均值 . 无 这 个 


统计 量 在 直觉 上 为 人 们 所 广泛 接受 ， 在 理论 上 可 以 证 明 

它 的 多 方面 的 优越 性 ,其 中 之 一 即 曾 提 到 过 的 ,概率 论 中 

著名 的 大 数 定律 .我 们 提供 一 个 较 易 理解 的 依据 如 下 : 设 
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理论 上 的 ( 即 全 总 体 的 ) 平 均值 为 a, a 未知, 通过 观察 或 
试验 得 到 样本 屎 19 “**» Xn, 要 由 它们 算出 一 个 值 b 去 信 
计 u. 由 于 Xi "9 Xin 是 围绕 在 真 值 a 的 附近 ,我 们 有 理 


由 这 样 想 : b 愈 接近 4, 偏差 平方 和 忆 (X, -5b)* 应 愈 小 一 
些 (其 所 以 取 平 方 ， 是 为 防止 偏差 正 负 抵消 ). 易 证 明 
总 (Xb)? = 加 (x, 一 XX)?+n(-b)*， 于 是 只 在 b= 区 


时 , 偏差 平方 和 才 达 到 最 小 值 . 所 此 应 以 x 作为 a 的 估 
计 . 这 个 原则 就 是 著名 的 “最 小 二 乘法 ”. 此 法 在 科学 史 
上 一 般 都 归功 于 伟大 数学 家 高 斯 (C. F. Gauss) 在 1799 
一 1809 年 之 间 的 工作 .这 个 方法 可 用 于 许多 问题 ,在 统计 
学 和 计算 数学 上 有 重要 的 地 位 . 
除 X 外 ， 劾 划 平 均 的 男 一 重要 统计 量 ,是 样本 中 位 

数 . 它 定义 为 X1，…，X%, 按 大 小 居于 正中 的 那 一 个 ,或 
(在 到 为 偶数 时 ) 正 中 那 两 个 的 平均 . 此 统计 量 的 直观 意 
义 是 :数据 中 超过 或 低 于 此 值 的 个 数 一 样 多 .在 报导 中 常 
见 到 某国 某 地 区 处 在 某 条 线 以 下 的 情况 约 占 一 半 云云 ， 
即 是 此 统计 量 的 一 种 应 用 . ‘与 % 相 比 , 它 的 特点 在 于 具 
有 更 大 的 “稳健 性 ”， 其 含义 如 下 : 当 我 们 收集 大 量 数据 
时 ,难免 有 少数 几 个 发 生 所 谓 “ 过 失误 差 ”, 例 如 ， 小 数 点 
打 错 了 地 方 ,而 使 数据 增 大 或 缩小 了 十 倍 、 百 们 等 ， 这 将 
对 xX 之 值 产生 较 显著 的 影响 , 但 对 样本 中 位 数 则 无 影响 
或 影响 甚 微 .有 关 稳 健 性 的 研究 ,是 近年 来 统计 学 理论 发 
展 的 一 个 方面 ， 
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另 一 类 重要 的 统计 量 , 是 为 了 刻 划 数据 的 散布 程度 . 
例如 ,两 行业 平均 工资 都 是 60 元 ,但 一 个 行业 内 部 工资 差 
别 很 小 ,而 另 一 个 则 差别 很 大 .这 二 者 的 不 同 有 很 大 的 实 
际 意义 ,但 只 看 平均 值 就 不 能 发 现 . 与 刻 划 平均 的 统计 量 
一 样 , 刻 划 数据 散布 程度 的 统计 量 很 多 .其 中 最 重要 的 是 
所 谓 “ 样 本 方差 "s*， 以 及 “样本 标准 差 " (也 称 “ 样 本 均 方 
差 ”) s. 3 定义 为 ， 

9 = 六 (xx 

也 有 用 n 代 苦 上 述 分 母 中 的 7 一 1 的 . 当 样 本 大 小 nn 较 
大 时 ,二 者 差别 不 重要 . s’ 在 直观 上 的 意义 很 清楚 : 若 翌 
本 Xxi，…, Xx。 的 散布 比较 小 , 则 它们 将 集中 在 其 平均 
附近 ,而 使 S: 比较 小 ;反之 , 则 s? 将 会 大 .我 们 看 出 ,这 
个 量 的 选择 ,与 最 小 二 乘法 有 关联 . 与 一 样 ,在 统计 学 
理论 中 ,可 证 明 s” 有 很 多 民 好 的 性 质 . 也 还 有 为 一 些 刻 
划 散 布 程度 的 统计 量 , 它 们 在 应 用 上 不 如 5 广泛, 但 也 
有 其 某 些 特点 . 

除了 平均 和 散布 度 这 两 大 类 以 外 ， 在 统计 理论 和 应 
用 上 ， 还 有 若干 常用 而 重要 的 统计 量 . 举 其 中 比较 易于 
理解 的 极 值 为 例 . 以 x = max(xt，…，xX) 和 和 XxX; = min 
(xi ,Xs) 分 别 记 样本 Xi1,…, Xx, 中 的 最 大 者 和 最 小 者 ， 
它们 统称 为 “ 极 值 ” .在 灾害 性 现象 (地 震 ,水 灾 等 ) 中 ， 对 
我 们 最 重要 的 就 是 这 种 极 值 .如 一 年 中 某 地 各 次 地 震中 ， 
艇 级 最 大 的 是 多 少 ， 男 外 ,如 在 材料 强度 试验 可靠 性 试 
验 中 , 极 值 也 很 重要 .日 常 在 报导 中 ,往往 听 到 “这 个 数字 
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是 五 年 来 的 最 低 点 " 之 类 的 说 法 ， 就 是 一 种 极 值 统计 量 . 
由 于 应 用 上 的 重要 ,“ 极 值 统计 ”已 成 为 统计 学 中 的 一 个 
人 研 究 题 月 ,有 专著 问世 . 另外 , x* - x, 称 为 “样本 极 差 ”， 
是 刻 划 数据 散布 程度 的 一 个 统计 量 . 


2， 笠 本 协 方差 ,样本 相关 系数 与 回归 
现 考虑 多 维 样本 的 情况 . 先 设 维 数 等 于 2, 即 对 每 一 


个 体 ， 我 们 同时 关心 它 的 两 个 指标 ， 假 定 有 了 样本 (x:， 


ya)，(xa，?7a)，…，(x，3) .如果 先 孤立 地 取 其 中 的 一 
个 指标 去 看 ,就 分 别 有 一 维 样本 (x:， Xs, "9 x,) 和 (ya， 
7a，…，? 小 ， 于 是 可 以 计算 刻 划 其 平均 性 质 与 散布 程度 
的 统计 量 *，s*，7，sS*, 及 其 他 种 种 感 兴趣 的 量 . 这 在 原 
则 上 没有 新 东西 .对 我 们 来 说 ,新 东西 是 与 两 个 指标 都 有 
关系 的 ,即刻 划 两 指标 之 间 的 关系 的 那 种 统计 量 .这 类 统 
计量 中 ,最 重要 的 是 样本 协 方差 sw， 以 及 与 之 相 联 的 样 
本 相关 系数 rw 它们 的 定义 是 


1 ' = 一 
soy = Nn 2 (% —X)(y, — 7), 


Say 
由 著名 的 许 瓦 兹 (H, A. Schwarz) 不 等 式 ,得 
(> (X, -XxX)(Y, —》))? < > (Xi x)? > (Y, —》)?, 
等 号 当 且 仅 当 存 在 不 同时 为 0 的 常数 a.b、c, 使 


ax, +t by,+c=0, i=1,., 
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时 成 立 .由 此 可 知 ,总 有 SS <s23: ,因而 
-1<ry<1,， 

等 号 当 且 仅 当 x、y 两 指标 有 严格 线性 关系 时 始 成 立 .由 
于 这 个 原因 ,有 时 也 把 r。, 称 为 线性 相关 系数 ， |r | 愈 接 
近 于 1, x、 > 之 间 线 性 关系 的 程度 愈 大 ，r。 的 符号 则 显 
示 相 关 的 方向 ,rw>0 时 称 为 正 相关 , rw<0 时 称 为 负 
相关 . 这些, 我 们 现在 从 另 一 不 同 的 ,十 分 重要 的 角度 来 
说 明 . 

在 (x, y) 平面 上 取 一 个 直角 坐标 系 ， 把 每 个 样本 
得 一 个 点 . 车 样本 大 小 为 1， i 
则 得 到 由 xn 个 点 构成 的 一 张 
图 (如 右 图 ), 称 为 “ 散 点 图 ”. 
作 散 点 图 ， 在 某 种 意义 上 是 
一 种 最 重要 的 整理 数据 的 方 
法 .因为 一 看 这 张 图 ,对 两 指 
标 值 的 平均 .散布 与 其 关系 的 大 致 情况 ,心中 就 有 了 一 个 
概念 . 这 其 中 最 重要 的 ， 就 是 帮助 我 们 探索 两 指标 之 间 
的 关系 .如 图 , 我 们 看 出 x,y 之 间 有 一 定 线性 关系 的 趋 
势 ,但 又 不 严格 为 线性 .我 们 想 要 找 一 条 直线 (图 中 的 了 )， 
能 大 体 上 反映 这 个 趋势 .这 条 直线 1 本 身 ,就 是 对 全 部 数 
据 的 一 个 形象 化 的 概括 ,但 有 两 个 问题 ; (i) 这 条 直线 如 
何 找 ? ( 立 ) 其 代表 性 如 何 ? 我 们 下 面 将 看 到 :这 两 个 问题 
的 回答 ,都 与 线性 相关 系数 rw 有 关 . 

为 找 直线 7 使 用 最 小 二 乘法 . 我 们 想 要 找 一 条 直线 
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y=a+bx， 在 某 种 意义 上 与 散 点 图 上 各 点 尽 可 能 接 近 ， 
按 这 个 直线 方程 , 当 x=x, 时 , 》 应 为 ,=a+bx%, 但 实 
际 观察 结果 为 y,, 偏 差 平 方 和 为 


L(a, b)= DY-D) = DY ab)’. 


要 找 a、b, 使 L(a, 5) 最 小 .用 微 积 分 求 极 值 法 , 或 用 简 
单 的 配方 法 ,不 难 求 得 ,只 在 


VoySy 
b=b= et ， 


六 


A ~- 2-_/ ~ rr,S,X 
a=6=5-bz(=- SL | 
S» 


时 , L(a, b) 达 到 最 小 值 . 这 条 直线 y= 4 +bx 称 为 数据 
的 (经 验 ) 回 归 直 线 〈“ 经 验 ” 的 意思 ， 表 示 它 系 由 数据 得 
来 ). 我 们 注意 到 , 它 通 过 散 点 图 的 中 心 (元 , 放 . 其 代表 性 
如 何 , 则 要 看 偏差 平方 和 L(6, 四 的 大 小 .此 值 愈 小 , 代 
表 性 愈 大 .通过 简单 的 初等 代数 计算 ,不 难得 到 
L(G, b)= SY, -HD)(1 -rs,) 
=(n—1)s(1-r3,). 

利用 这 些 公式 ,就 可 以 对 相关 系数 +。, 的 意义 , 给 予 更 清 
楚 的 解释 .首先 ,b 的 符号 与 rw 同 . 若 rw>0, 则 b>0， 
而 直线 1 的 趋势 是 : 当 x 增加 (下 降 ) 时 , 》 随 之 增加 (下 
降 ). 这 是 我 们 当 rw>0 时 把 x、? 的 关系 称 为 “ 正 相关 ” 
的 理由 .类似 地 ,得 到 * 负 相关 ”的 解释 . 


其 次 , 习 (2 -7 即 (nn 一 1)s;, 反映 了 > 数据 的 散 
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布 程度 ; 而 L(&,) 则 反映 了 在 指标 >》 中 消除 掉 x 的 影 
响 后 ,所 剩余 下 的 或 残留 的 散布 度 ( 以 此 之 故 , L(6,b) 常 
称 为 残 差 平方 和 ). 这 表明 : 在 > 的 全 部 散布 度 中 , 因 x 
的 影响 所 占 比率 为 100r2 狗 ，|rsy| 愈 接近 1， 这 比率 愈 
大 当 =0 时 ， 


L(6, b)= 2 (y, -3)’, 


表示 x 对 》 无 影响 ， 这 时 ， 称 x、y“ 不 相关 ” .通过 这 
一 分 析 , 看 出 +s 是 衡量 x、y 之 间 的 线性 关系 的 良好 指 
标 . 

经 验 回归 方程 y=6G+ bx 的 斜率 b， 常 称 为 (经 验 ) 
线性 回归 系数 .在 实用 上 ,回归 方程 常用 于 预测 ( 即 已 知 x 
值 时 ,预测 相应 的 y 值 ). 所 用 预测 量 就 是 6+ bx， 这 预 
测量 的 好 坏 , 当 然 取 决 于 回归 方程 的 代表 性 , 即 L(6, D) 
的 大 小 .这 种 预测 问题 在 应 用 上 很 常见 ,因而 回归 是 统计 
方法 中 的 一 个 极 重要 的 方法 . 形式 上 ， 我们 也 可 以 掉 转 
x.y 的 位 置 , 但 在 具体 问题 中 , x、> 中 谁 为 预测 者 ， 谁 
为 被 预测 者 ,要 看 实际 情况 . 例如 ,只 能 由 施肥 量 预 测 产 
量 ,而 不 能 反 过 来 

在 历史 上 ， 回 妇 这 个 名 词 是 英国 著名 统计 学 家 兼 生 
物 学 家 高 尔 顿 (F. Galton) 在 上 世纪 八 十 年 代 提 出 来 的 . 
他 考察 了 1078 对 夫妇 ,以 夫妇 身高 的 平均 作为 x, 其 一 成 
年 儿子 的 身高 作为 y, 描 出 1078 组 数据 的 散 点 图 . 当 x 增 
加 时 ,y 有 增加 的 趋势 .然而 ,高 尔 顿 注意 到 下 述 有 趣 的 现 
象 ; 父 代 平均 身高 为 68 英寸 , 子 代 则 为 69 英寸 . 依 此 ,一 
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般 人 会 预期 : 当 父 代 身 高 固定 在 某 值 x 时 ， 子 代 平 均 身 
高 应 为 x+1 左右 .但 实际 不 然 .例如 , 当 X=72 (大 于 平 
均值 68) 时 ,y 的 平均 值 只 有 71, 虽 则 大 于 总 平均 69, 但 
比 x 还 小 一 些 . 反 之 ,车 X= 64( 小 于 平均 值 68) , 则 ?7 之 
平均 值 为 67, 虽 则 低 于 子 代 总 平均 69, 但 比 xX+1( 即 65) 
还 大 .这 意味 着 ,在 本 例 中 子 代 身 高 平均 值 有 回归 于 其 中 
心 (69) 的 倾向 .以 此 之 故 , 高 尔 顿 把 本 例 中 X、? 的 关系 
加 上 “回归 ?的 称呼 . 然而 ,这 只 是 在 本 例 中 特有 的 现象 ， 
并 不 是 有 普遍 性 的 特征 ， 把 它 作 为 变量 之 间 的 关系 的 称 
呼 并 不 恰当 .只 是 这 名 称 现在 已 经 成 了 习惯 ,无 法 加 以 改 
变 了 . 

一 般 地 ， 可 以 考虑 多 个 变量 之 间 的 关系 ， 也 可 以 不 
限于 线性 关系 ， 这 些 都 属于 统计 学 中 “回归 分 析 ” 这 分 
支 . 这 是 一 个 在 应 用 上 极 重要 ， 在 理论 上 也 很 发 展 的 分 
支 . 

如 果 考 虑 的 指标 个 数 多 于 2 , 则 情况 也 相似 .每 个 指 
标的 观察 值 构 成 一 个 一 维 样本 ,可 计算 其 样本 均值 样本 
方差 等 ,这 没有 新 的 东西 .有 兴趣 的 是 那些 反映 指标 之 间 
关系 的 统计 量 , 主 要 的 仍 是 样本 协 方 差 与 相关 系数 .如 果 
及 个 指标 (样本 是 上 维 的 ), 则 有 
_k(k-1) 

: 2 

个 样本 协 方差 和 相关 系数 . 自然 ， 也 可 以 考虑 多 于 两 个 
指标 的 关系 问题 . 这 一 般 只 涉及 样本 均值 、 方 差 与 协 方 
其 . 
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四 、 统计 推断 


统计 推断 是 数理 统计 学 理论 的 主要 部 分 .现行 的 统 
计 推 断 理论 ,是 建筑 在 概率 论 的 基础 上 的 ,因此 ， 本 节 要 
求 读 者 了 解 概 率 论 的 一 些 初 步 知 识 . 

前 已 说 过 ， 统 计 推 央 ， 就 是 根据 从 总 体 中 抽出 的 样 
本 ,去 推断 总 体 的 性 质 . 由 于 我 们 关心 的 总 是 总 体 中 的 个 
体 的 某 珊 指标 ,所 谓 总 体 的 性 质 ,无 非 束 是 这 些 指标 值 的 
集体 的 性 质 ， 而 概率 分 布 正 是 刻 划 这 种 集体 性 质 的 适当 
工具 ， 因 此 ,在 理论 上 可 以 把 总 体 与 概率 分 布 等 同 起 来 . 
例如 , 当 指 标 值 的 概率 分 布 为 正 态 分 布 时 ,我 们 可 称 这 个 
总 体 为 正 态 总 体 ,等 等 ， 

如 果 指 标 值 的 概率 分 布 完全 已 知 ， 则 从 统计 学 的 观 
点 看 ， 样 本 已 无 用 武之 地 一 一 没有 什么 需要 夭 助 于 样本 
去 推断 的 东西 .总体 的 性 质 包含 在 其 概率 分 布 中 ,只 有 当 
这 种 分 布 中 包含 未 知 的 成 份 时 , 才 发 生 推 断 问题 ， 

例如 ,有 理由 假定 ， 在 一 大 群 人 中 ,身高 服从 正 态 分 
布 Nla,0”). 均值 a 反映 这 群 人 的 平均 身高 ,而 方差 as 
则 反映 身高 的 不 均匀 程度 . 我 们 虽 可 假定 身高 服从 正 态 
分 布 ,但 a 和 0” 这 两 个 参数 则 不 知道 ， 它 们 是 指标 ( 身 
高 ) 的 概率 分 布 中 的 未 知 成 份 , 即 推断 的 对 象 .又 如 ,大 批 
生产 的 一 种 电子 元 件 ， 在 一 定 条 件 下 ， 有 理由 假定 元 件 
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寿命 (我 们 关心 的 指标 ) 的 概率 分 布 为 指数 分 布 ,其 概率 密 
度 为 


(xx)=0， 当 Xx 之 0，; f(x) = -有 e-", 当 XxX 宕 0， 


参数 6>0 是 这 个 分 布 的 未 知 成 份 , 它 就 是 元 件 的 平均 寿 
命 , 这 正 是 应 用 上 有 兴趣 的 量 , 而 成 为 统计 推断 的 对 象 . 

这 样 ,我 们 就 可 以 一 般 地 把 统计 推断 的 问题 ,抽象 为 
如 下 的 数学 模型 ， 总 体 的 概率 分 布 F,(x) 包 含 了 其 值 未 
知 的 参数 6( 这 里 ,6 可 以 是 向 量 , 如 在 正 态 总 体 中 有 0 = 
(a, 0”)). 从 该 总 体 随 机 抽样 ,得 样本 x;，…，x,， 要 通 
过 后 者 ,去 获得 对 9 的 某 些 了 解 . 这 后 一 点 的 确切 含义 ， 
依赖 于 所 要 回答 的 问题 的 性 质 . 主要 的 形式 有 两 种 : 

1， 估计 问题 . 即 要 通过 样本 x:，…， Xx, 对 9 的 值 
作出 估计 .如 估计 上 述 指数 分 布 的 参数 9. 这 问题 的 实际 
含义 无 非 是 ;从 一 大 批 电 子 元 件 中 抽出 n 件 , 测 得 其 寿命 
为 Xx1，…，X,, 要 利用 这 些 数据 , 去 估计 整 批 元 件 的 平均 
寿命 .由 于 估计 的 对 象 是 参数 , 常 称 为 参数 估计 .人 参数 估 
计 又 分 为 两 种 基本 形式 :点 估计 和 区 间 估 计 . 前 者 是 用 一 
个 数值 作为 未 知 参 数 6 的 估计 值 ， 后 者 则 用 一 个 区 间 ， 
把 6 估计 在 这 个 区 间 内 . 犹 之 如 估计 某 人 的 年 龄 为 25 岁 ， 
是 点 估计 ;估计 其 年 龄 在 20 一 30 岁 之 间 ,是 区 间 估 计 ， 在 
统计 上 ， 点 估计 就 是 样本 x, ，…，x。 的 一 个 函数 6(xi， 
…，X,)( 即 统计 量 ), 称 为 6 的 一 个 “估计 量 * ， 每 有 了 样 
本 Xi1,…， xX,， 即 可 代入 其 中 而 算出 具体 数值 6, 用 以 估 
计 6. 人 们 党 称 由 估计 量 算出 的 具体 数值 为 “估计 值 ” .至 
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于 区 间 估 计 , 则 不 过 是 两 个 统计 量 6.(xi,…， Xx,),i=1、 
2, 满 足 条 件 61<6,. 每 有 了 样本 xi ，…，x,, 就 代入 其 中 
算出 具体 数值 91、9;, 而 将 8 估计 在 区 间 [01, 0b,] 之 内 . 
例如 , 用 样本 均值 xX 估计 总 体 均 值 〈 用 我 们 现在 的 
党 法 ,就 是 总 体 的 概率 分 布 的 均值 ) ,是 一 个 常用 方法 . 故 
2 可 用 于 估计 正 态 分 布 N(a,c2?) 中 的 a, 指 数 分 布 中 的 9， 
等 等 .停留 在 数据 整理 这 个 角度 上 ,人 们 会 觉得 算术 平均 
是 个 “天 然 合理 ?的 量 , 没 什么 值得 进一步 讨论 的 东西 
但 从 统计 推断 的 角度 去 看 , 则 可 以 提出 很 多 问题 .主要 是 
这 估计 的 精度 如 何 ? 比如 间 ;X 与 总 体 均 值 的 误差 不 超过 
1 的 可 能 性 (概率 ) 有 多 大 ? 这 要 求 在 正 态 分 布 的 假定 下 
算出 P(X -a| <1), 在 指数 分 布 的 假定 下 算出 P(|X 一 0| 
<1), 等 等 ,由 于 总 体 分 布 的 假定 不 同 , 这 概率 的 算法 及 
其 值 都 不 一 样 .又 ,这 估计 量 的 精度 还 可 以 通过 其 均 方 误 
差 (E(X -a)*,E(X%-0)* 等 ) 表 现 出 来 .对 上 述 两 个 分 布 ， 
均 方 误差 可 分 别 算出 为 0?/n( 对 N(a,0)) 以 及 0*/n( 对 
和 数 分 布 ) ， 是否 可 以 找到 均 方 误差 比 这 更 小 的 估计 量 ? 
这 就 是 一 个 不 易 回 答 的 理论 问题 .对 上 述 两 个 分 布 而 言 ， 
可 证 明 这 样 的 估计 量 不 存在 . 但 是 ， 若 总 体 的 概率 分 布 
是 区 间 (0，6) 上 的 均匀 分 布 R(0, 9), 即 有 概率 密度 
fo(x) = 语 ， 当 0<x<b 
fo(Xx) =0， 对 其 他 x, (0>0) 
则 可 以 证 明 这 样 的 估计 量 存在 . 如 革 = 
x,) 即 为 其 一 ， 又 ， 均 方 误差 不 过 是 可 能 提出 的 优良 性 
sl 


max(X1, *, 


站 


准则 中 的 一 种 ,因此 ,就 可 以 提出 问题 ,在 另外 的 优良 性 
准则 下 ,x 这 个 估计 量 的 表现 如 何 ? 从 这 个 简单 例子 , 可 
以 看 出 点 估计 理论 的 丰富 内 容 的 简单 轮廓 . 正如 我 们 在 
前 面 曾 指出 过 的 ,宣布 把 样本 均值 元 作 为 总 体 平 均 的 佑 
计 , 表 面 上 好 像 只 是 形式 地 跨 出 了 一 步 , 却 是 一 件 不 简单 
的 事情 ,需要 许多 理论 上 的 论证 来 支持 . 

区 间 估 计 的 优良 性 可 分 两 个 方面 去 考察 . 一 方面 是 
可 靠 度 , 即 区 闻 [0,(X1,…，X,)，0s(X1，,…，X,)] 能 包含 
未 知 参数 9 的 可 能 性 多 大 , 就 是 概率 P{0,(Xi,…,X,) < 
90<6,(X1，…，X,)}), 它 称 为 区 间 信 计 [6;，0,1 的 “置信 系 
数 ”; 另 一 方面 是 精度 ,区 间 愈 短 ,精度 愈 高 一 一 当然 ， 精 
度 也 可 以 不 直接 通过 区 间 长 度 去 衡量 . 我 们 希望 找到 这 
样 的 区 间 估 计 , 其 置信 系数 尽量 接近 1, 而 区 间 长 度 尽 可 
能 小 ,可 是 这 两 者 有 矛盾 . 犹 之 如 你 要 把 一 个 人 的 年 龄 估 
计 在 一 个 很 小 的 范围 内 ,你 就 要 冒 比较 大 的 出 错 的 风险 . 
在 统计 学 上 ， 处 理 这 问题 的 作法 是 按照 在 本 世纪 三 十 年 
代 开 创 了 区 间 估 计 理 论 的 奈 曼 (J. Neyman) 的 方案 ， 即 
在 保证 一 定 的 置信 系数 的 前 提 下 ,使 精度 尽 可 能 高 .在 统 
计 学 上 ,常用 0.95,0.99,0.90 这 些 数 , 尤 其 是 0.95.， 区 疗 
估计 的 一 个 最 重要 的 例子 ,是 为 估计 正 态 分 布 N(a, 0’) 
的 均值 a 的 所 谓 “t 区 间 估 计 ?”, 设 Xi1，…:，X, 是 从 正 态 


总 体 NM(a, o?) 中 抽出 的 样本 ， 以 x= 沿 妆 和 = 


一 二 了 包 (x, 一 元): 记 样 本 均值 和 方差 ， 并 给 定 置信 系数 


D2 


Ee 


为 0.95, 则 a 的 区 间 信 计 可 取 为 


_ sg 
十 一 一 .1(0.05 ) ， 
“7 5 ) 


即 


— S — S 
[zx -tC0.05), xX t ta .05) | 


这 里 ,hn 是 样本 大 小 ; 至 于 -1(0.05), 那 是 一 个 根据 所 
谓 “t 分 布 ”、 样 本 大 小 以 及 所 给 的 置信 系数 0.95 (0.05 = 
1 一 0.95) 而 确定 的 值 , 有 表 可 查 , 例 如 


k 2 3 4 5 6 7 8 9 10 co 


4.808 8.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 1.960 


考察 一 组 具体 数据 : 设 从 一 大 群 人 (其 身高 可 认为 服从 正 

态 分 布 NC(a, 0”)) 中 抽出 8 个 , 量 得 其 身高 为 (厘米 ) : 
168,172,170,180,176,174,165,173， 

算出 无 =172.25, S=4.683. 又 n-1=7, 而 11(0.05) 

=2.365 .于 是 作为 点 估计 ,我 们 用 %=172.25 去 估计 这 

群 人 的 平均 身高 a, 作为 区 间 佑 计 , 则 用 


172 25 十 A 2.365 = [168.33, 176.17], 


tx(0.05) 


其 可 靠 性 为 0.95 .如 果 要 把 可 靠 性 提高 到 0.99, 则 应 在 上 
述 公 式 中 ,把 志 -:(0.05) 改 为 芭 -ix(0.01). 对 n=8, 此 值 
为 3.499, 而 区 间 估 计 将 变 为 [L166.46，178.0 幻 , 精度 比 
原来 的 差 了 . 
即使 在 这 比较 简单 的 情况 ， 仍 能 提出 很 多 问题 .总 
的 说 , 研 是 上 述 t 区 辐 全 计 在 种 种 准则 下 的 优良 性 问题 . 
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其 中 ,有 的 直到 目前 仍 是 研究 的 对 象 . 

2. 检验 问题 . 先 看 一 个 例子 . 设 某 工厂 生产 了 一 大 
批 电 子 元 件 . 其 寿命 可 假定 服从 指数 分 布 ， 参 数 9 的 值 
( 即 整 批 产品 的 平均 寿命 ) 是 未 知 的 . 现 设 这 批 产品 的 使 
用 者 立 下 了 一 个 界限 : 只 有 在 平均 寿命 6 不 小 于 某 个 值 
9。 (如 6 = 5000 小 时 ) 时 , 才 接 受 这 批 产 品 . 为 此 , 从 这 
批 电 子 元 件 中 抽出 若干 个 , 测 得 其 寿命 为 x1:，…，X,; 要 
据 此 判断 “9> 6 是 否 成 立 ， 又 如 , 一 种 产品 中 所 含 杂 质 
的 量 ,可 假定 为 服从 正 态 分 布 N (a, 0?). a 是 杂质 的 平 
均 含量 , 现 使 用 者 要 求 这 平均 含量 a 不 超过 某 个 界限 ao. 
于 是 ,抽出 n 个 样品 , 测 得 其 杂质 含量 为 x1，…，X。， 要 
由 此 判断 “a< ao 是否 成 立 . 

由 此 看 到 ,在 这 一 类 问题 中 ， 我 们 有 一 个 待 判断 的 ， 
与 总 体 概 率 分 布 的 参数 有 关 的 命题 : 9>9,a< ao, 等 等 . 
在 统计 学 上 ,把 这 称 为 “假设 ” .使 用 样本 去 判断 一 个 假设 
是 否 成 立 , 称 为 “假设 检验 ”, 它 是 与 参数 估计 并 列 的 、 统 
计 推 断 的 两 种 基本 形式 之 一 . 

假设 检验 问题 的 具体 回答 只 有 两 种 ;接受 假设 ,或 否 
定 假设 . 问题 是 要 建立 一 个 法 则 ,使 当 一 有 了 样本 时 ,这 
个 法 则 就 能 决定 是 接受 还 是 否定 假设 . 任何 一 个 这 样 的 
法 则 ,都 叫做 所 给 假设 的 一 个 “检验 ”. 

举例 来 说 ,在 前 面 所 提 “a<ao” 这 个 假设 的 检验 问题 
中 ,我 们 先 用 元 估计 a， 由 于 Xx 与 a 接近 ,我 们 在 直观 上 
就 易于 接受 下 述 作法 ;应 当 在 x 较 小 时 ,比方 说 元 <c 时 ， 
接受 假设 a qo; 若 >c， 则 否定 a<ao. c 不 一 定 即 取 
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为 ao, 因 为 区 只 是 a 的 估计 值 ,而 不 就 是 a. 那 么 ,c 取 多 
少 为 好 呢 ? 这 就 涉及 理论 上 的 问题 . 根据 奈 曼 和 上 度 尔 进 
(E. S. Pearson) 在 本 世纪 二 .三 十 年 代 所 发 展 的 理论 , 是 
用 如 下 的 方式 来 处 理 这 个 问题 ;他们 指出 ,在 检验 一 个 假 
设 时 可 能 犯 两 种 错误 之 一 ,一 是 假设 本 来 对 ,但 被 否定 了 
(第 一 种 错误 )， 一 是 假设 本 来 不 对 ,但 被 接受 了 (第 二 种 
错误 )， 他 们 提出 ,控制 第 一 种 错误 的 概率 ， 使 之 不 超过 
给 定 的 数 a( 这 里 ,4 一 般 很 小 ,如 0.05,0.01,0.10 等 , 称 
为 检验 的 水 平 )， 在 选择 了 一 定 的 检验 统计 量 ( 如 上 例 的 
X) 后 , 根据 给 定 的 水 平 & 及 检验 统计 量 的 分 布 ， 了 就 可 以 
决定 界限 c. 但 是 , 对 一 个 假设 来 说 ,可 用 的 检验 统计 量 
很 多 .如 在 上 例 , 也 可 用 样本 中 位 数 tt, 而 当 m<c’ 时 接 
受 假设 a 和 ca . 在 众多 可 能 的 检验 统计 量 中 怎样 选择 其 
一 呢 ? 奈 曼 和 皮尔 逊 提 出 的 原则 是 : 在 控制 第 一 种 错误 
概率 的 前 提 下 ,使 第 二 种 错误 的 概率 尽 可 能 小 . 而 这 “ 尽 
可 能 小 ?一 语 ,又 有 形形色色 的 解释 ， 相 应 于 种 种 具体 的 
准则 . 在 这 个 原则 之 下 ,发 展 了 一 整套 假设 检验 理论 ,成 
为 现在 统计 推断 理论 的 一 个 重要 构成 部 分 . 

除了 这 两 种 基本 的 推断 形式 以 外 ， 另 有 一 种 常用 的 
推断 形式 ,可 说 是 介 于 两 者 之 间 ;参数 估计 可 能 的 推断 结 
果 是 无 穷 多 个 ,假设 检验 只 有 2 个 .而 在 有 些 问 题 中 ,可 
能 的 推断 结果 多 于 2, 但 个 数 为 有 限 .例如 ,有 5 个 玉米 喇 
种 ,要 挑选 其 中 产量 最 高 者 .如 果 我 们 假定 这 5 个 品种 的 
产量 分 别 服从 正 态 分 布 N(a，02)，i=1，…，5, 则 问题 
在 于 找 出 一 个 i, 使 a 在 a1，…, as 中 最 大 . 这 时 ， 可 
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能 的 推断 结果 有 5 个 . 


参数 信 计 和 假设 检验 不 仅 是 两 种 基本 的 推断 形 式 ， 
它们 各 自 也 构成 统计 学 中 的 基本 分 支 . 在 统计 学 中 存在 
者 一 些 学 科 分 支 ,其 中 的 两 个 一 一 抽样 技术 与 试验 设计 ， 
是 与 获取 数据 有 关 ， 其 他 分 支 则 主要 关系 到 统计 推断 
的 ,重要 的 如 多 元 统计 分 析 , 它 是 讨论 多 维 数据 的 统计 推 
淘 的 ,相关 回归 分 析 , 则 是 讨论 带 随机 性 的 变量 的 关系 的 
分 文 , 它 也 可 视 为 多 元 分 析 的 一 部 分 ,等 等 另 有 一 些 分 
文 ， 则 是 联系 茶 种 特殊 应 用 而 建立 的 . 还 存在 统计 学 与 
其 他 学 科 的 一 些 边缘 性 分 支 学 科 , 如 生物 统计 学 、 数 量 遗 
传 学 ,计量 经 济 学 等 . 


五 、 统 计 学 的 应 用 


在 前 面 的 叙述 中 ,我们 已 提 到 过 统计 学 的 某 些 应 用 ， 
为 使 读者 对 这 门 学 科 的 重要 实际 意义 有 更 深刻 的 印 象 ， 
我 们 再 花 点 篇 旺 来 作 一 点 较 系统 的 介绍 . 

统计 学 最 主要 的 应 用 领域 有 二 :工农 业 生 产 和 社会 、 
经 济 领域 .田间 试验 的 适当 的 设计 及 统计 分 析 ， 是 统计 
方法 在 农业 中 应 用 的 直接 形式 . 其 实 ， 我 们 在 第 三 节 中 
介绍 的 试验 设计 的 基本 思想 和 方法 ， 最 初 就 是 从 田间 试 
验 开始 发 展 起 来 的 .农业 生产 中 有 许多 可 变 因素 , 像 种 子 
品种 ,播种 量 ,肥料 和 农药 的 种 类 及 数量 ， 耕 作 方 法 及 田 
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间 管 理 方式 的 选择 ,等 等 . 为 提高 产品 的 数量 及 质量 , 需 
要 通过 试验 ,对 这 些 因素 在 允许 的 范围 内 进行 选择 .农业 
试验 有 其 特点 , 即 试验 周期 长 (因而 组 织 一 次 试验 不 易 )， 
环境 因素 变异 大 .在 这 种 不 利 的 条 件 下 ,如 不 对 试验 的 设 
计 安 排 作 精 心 考虑 ,并 使 用 有 力 的 统计 分 析 方 法 , 则 得 不 
出 什么 有 用 的 结论 . 这 一 点 解释 了 为 什么 试验 设计 及 其 
统计 分 析 的 发 展 , 始 自 农业 和 生物 方面 的 应 用 .统计 方法 
在 农业 上 还 有 一 些 较 为 间接 的 应 用 .例如 ,培育 优良 品种 
是 农业 上 的 一 个 重要 问题 ,在 学 科 上 说 ,这 种 问题 属于 数 
量 遗 传 学 研究 的 范围 .而 其 中 就 使 用 了 大 量 的 统计 方法 . 
如 在 遗传 力 的 计算 上 ,使 用 了 很 复杂 的 回归 分 析 和 方差 
分 析 的 方法 ， 

统计 方法 在 工业 上 的 应 用 , 比 其 在 农业 ,生物 上 的 应 
用 开始 得 略 晚 . 最初 ,在 本 世纪 二 十 年 代 后 期 ,有 人 开始 
把 统计 方法 用 于 成 批 产 品 的 抽样 验收 ， 以 及 生产 过 程 中 
的 工序 控制 . 稍 后 ,在 三 .四 二 年代, 又 有 人 把 在 农业 中 发 
展 的 一 套 试验 设计 的 思想 和 方法 用 于 工业 领域 ， 并 有 所 
发 展 . 例如 ,在 农业 试验 设计 中 ,部 分 实施 ( 见 第 三 节 ) 不 
肖 用 ,而 在 工业 试验 中 则 极为 常见 ,不 过 ,统计 方法 在 工 
业 中 的 大 量 应 用 并 取得 引 人 注 目的 成 效 ， 是 二 次 大 战 以 
后 的 事情 .这 一 点 当然 不 仅 与 统计 学 本 身 的 发 展 有 关 , 更 
重要 的 是 与 战 后 时 期 工业 的 飞速 发 展 有 关 . 二 者 起 了 相 
互 促进 的 作用 .大 略 言 之 ,统计 方法 在 工业 上 的 应 用 主要 
有 两 个 方面 .一 个 方面 是 试验 的 设计 及 其 统计 分 析 .在 试 
制 新 产品 改革 工艺 流程 .使 用 代用 原材料 及 寻求 适当 的 
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配方 等 问题 中 ,都 需要 通过 试验 ,去 决定 在 大 量 的 影响 产 
品质 量 和 数量 的 因素 中 ,那些 是 主要 的 ， 那 些 是 次 要 的 ， 
并 决定 一 组 优良 的 生产 条 件 . 正 交 设计 、 回 归 设 计 与 分 
析 ,方差 分 析 、 多 元 分 析 等 ， 都 是 处 理 这 个 问题 的 有 效 工 
具 .为 一 类 应 用 可 总 结 在 “统计 质量 管理 ”这 个 名 目下 . 它 
是 用 统计 方法 ， 对 工业 生产 过 程 中 及 事后 的 验收 和 使 用 
中 ,对 产品 质量 进行 评估 和 控制 .如 产品 抽样 验收 ， 是 根 
据 从 一 大 批 产品 中 抽出 一 小 部 分 作 检验 ， 以 判定 该 批 产 
品 可 和 否 接 受 . 从 理论 上 说 ,这 不 过 是 一 个 假设 检验 问题 . 
但 由 于 其 在 应 用 上 的 重要 性 ， 且 前 关于 这 方面 已 出 现 了 
好 几 本 专著 .不 少 国家 的 有 关 部 门 ， 包 括 武装 部 队 在 内 ， 
都 编制 了 特定 的 标准 ， 做 这 项 工作 离 不 开 统 计 学 理论 的 
指导 .统计 质量 管理 的 另 一 个 重要 内 容 是 工序 控制 , 即 在 
产品 制造 过 程 中 ,通过 抽查 ,发 现 生产 过 程 可 能 超出 控制 
范围 的 一 些 统计 方法 .这 些 方法 在 学 理 上 也 不 过 是 关于 
几 个 常见 分 布 ( 正 态 分 布 .二 项 分 布 等 ) 的 检验 问题 .但 一 
经 与 应 用 结合 ,就 有 了 丰富 的 内 容 . 另外 ,可 靠 性 统计 分 
析 也 是 统计 质量 管理 的 一 个 重要 方面 .例如 ,一 部 复杂 的 
装置 由 大 量 的 元 件 组 成 ， 当 这 些 元 件 中 的 一 个 或 某 些 个 
个 能 正常 工作 (失效 ) 时 ， 该 装置 就 不 能 正常 工作 ， 而 元 
件 在 何 时 失效 是 随机 的 ,因此 , 整 部 装置 的 可 靠 性 可 以 用 
慨 率 论 的 方法 去 计算 ,并 用 统计 学 的 方法 进行 估计 . 

以 上 这 些 统计 方法 ,在 战 后 时 期 ,在 一 些 工业 发 达 的 
国家 中 逐渐 得 到 了 普遍 的 应 用 ,获得 了 和 良好 的 经 济 效益 ， 
一 个 有 代表 性 的 例子 是 日 本 .有 人 估计 ,在 日 本 战 后 高 速 
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经 济 增长 中 ,有 5% 的 份额 可 归功 于 统计 方法 的 使 用 . 这 
个 比率 的 准确 性 如 何 姑 且 不 谈 , 但 无 可 怀疑 的 是 ,统计 方 
法 的 使 用 对 日 本 经 济 的 发 展 确实 起 了 重大 作用 . 一 个 例 
证 是 ;日 本 在 这 方面 的 成 就 ,包括 它 对 从 西方 “输入 ”的 一 
些 统计 方法 的 改造 〈 改 造 的 目的 是 使 之 有 更 便于 使 用 的 
形式 ,以 便 有 更 多 的 人 人， 包括 具 有 一 定 文化 水 平 的 工人 ， 
者 能 使 用 它 ), 得 到 了 像 美国 这 样 工 业 和 统计 都 很 发 达 的 
国家 的 重视 . 

我 国 在 这 方面 的 起 步 较 晚 . 五 十 年 代 末 期 ,开始 在 小 
范围 内 做 了 若干 工作 . 近 几 年 来 ,这 方面 努力 的 步伐 加 快 
了 ,但 目前 与 先进 国家 比 仍 有 不 小 的 差距 . 

从 现代 统计 学 发 展 的 早期 直到 现在 ， 统 计 方 法 在 社 
会 、 经 济 领域 中 的 应 用 ， 都 在 其 全 部 应 用 中 占 很 大 的 比 
例 . 有 资料 表明 ,在 统计 学 发 达 的 国家 中 ,统计 学 家 就 业 
人 数 的 比例 ,以 这 个 领域 为 最 高 . 从 性 质 上 说 ,在 这 个 领 
域内 的 应 用 可 以 分 成 两 类 . 一 类 是 单纯 的 抽样 调查 性 质 
的 . 即 为 了 要 了 解 一 个 包含 极 大 数目 的 个 体 的 总 体 的 情 
泥 ， 而 从 其 中 按 一 定 的 方式 抽出 一 些 个体 作 调查 . 这 人 么 
做 的 原因 做 法 及 其 优点 等 ,已 在 前 面 第 二 节 中 作 了 充分 
介绍 .这 是 一 个 很 大 的 应 用 领域 .在 不 少 这 类 性 质 的 应 用 
中 ,人 们 事先 并 未 对 总 体 的 状况 形成 什么 看 法 ,也 不 需要 
通过 抽样 去 验证 (有 关于 总 体 的 ) 某 种 理论 ， 而 纯粹 是 为 
了 “了 解 情 况 ” .我们 把 这 类 应 用 称 为 单纯 的 抽样 调查 .一 
般 说 ， 这 类 应 用 的 困难 在 于 目标 的 适当 确定 及 抽样 的 组 
织 工 作 , 而 在 统计 理论 方面 则 较为 简单 , 男 一 类 的 应 用 往 
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往 也 涉及 抽样 调查 ,但 要 求 更 深刻 一 些 . 比如 说 ,通过 抽 
样 调查 的 数据 去 探索 某 种 理论 上 的 规律 性 ， 或 验证 所 提 
出 的 某 种 规律 性 是 否 与 实际 符合 等 . 举 几 个 例子 .制定 了 
某 种 人 口 政策 ,要 探索 在 这 种 政策 下 ,人 口 将 以 怎样 的 规 
律 变化 ,或 在 制定 政策 时 ， 预 计 人 口 将 以 某 种 规律 增长 ， 
在 经 过 一 段 时 间 后 ,通过 抽样 调查 ,去 验证 实际 情况 与 最 
初 的 设想 是 否 符合 ,应 作 何 修正 . 又 如 ,在 资本 主义 国家 
中 ,政府 所 实施 的 金融 以 及 经 济 、 社 会 政策 ， 对 具有 盲目 
性 的 市 场 经 济 有 很 大 的 影响 ， 这 种 影响 确切 的 情 沉 如 
何 ,是 否 沿 大 政策 制定 者 所 希望 的 方向 去 发 展 ,都 要 通过 
收集 数据 进行 分 析 , 相 当 大 的 程度 上 是 统计 分 析 . 还 有 ， 
下 面 这 个 例子 也 可 以 概括 一 个 方面 的 应 用 :1927 年 ,美国 
心理 学 家 斯 彼 尔 曼 曾 在 其 一 本 著作 中 提出 一 个 假说 :一 
个 人 在 某 方面 的 智力 ,由 两 个 因素 组 成 ， 一 是 其 “一 般 智 
力 ,一 忆 与 此 特定 方面 有 关 的 智力 因素 . 这 不 是 一 个 在 
学 理 上 可 以 严格 证 明 或 否定 的 命题 . 人 们 对 这 个 说 法 的 
态度 ， 也 容易 团 于 自身 的 狭隘 经 验 . 只 有 通过 适当 的 试 
验 , 并 进行 统计 分 析 , 才 是 解决 这 个 问题 的 正确 途径 .加 
州 大 学 的 特 利 昂 教 授 用 老鼠 作 了 这 样 的 试验 ， 他 得 出 的 
结论 是 否定 的 .虽然 这 还 不 能 与 对 人 类 的 试验 等 同 起 来 ， 
但 有 相当 的 参考 价值 . 不 难 想像 ， 这 类 性 质 的 问题 在 社 
会 领域 中 是 很 多 的 ,其 解决 必然 用 到 统计 分 析 方 法 ， 

总 的 说 ,近年 来 特别 在 西方 ,社会 研究 定量 化 的 趋势 
愈 来 您 明显 . 至 于 在 经 济 科 学 中 ,由 于 其 性 质 ,定量 化 的 
趋势 比 其 他 社会 科学 部 门 更 早 , 且 程度 更 深 . 如 旱 在 二 、 
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三 十 年 代 , 时 间 序 列 分 析 方 法 就 已 用 于 市 场 预 测 .现在 已 
建立 了 一 门 边缘 性 质 的 学 科 一 一 数量 经 济 学 ， 其 中 使 用 
了 许多 近代 数学 的 知识 ,包括 概率 论 和 统计 学 ,从 简单 的 
回归 分 术 方 法 到 艰深 的 随机 过 程 统 计 方 法 ， 者 在 其 中 找 
到 了 应 用 . 

除了 上 述 这 两 个 主要 方面 的 应 用 外 ， 如 前 面 曾 指出 
的 ,统计 方法 在 几乎 人 类 活动 的 一 切 领域 内 ,都 或 多 或 少 
能 发 挥 一 些 作用 .例如 ,医学 是 较 早 使 用 统计 方法 的 一 个 
重要 领域 .我 们 经 常 在 各 种 书籍 及 报纸 杂志 上 读 到 , 某 某 
因素 是 导致 某 种 疾病 的 一 个 原因 ， 如 吸烟 使 患 癌症 的 危 
险 性 增加 ,饮酒 过 量 对 肝脏 有 损害 ,而 适量 饮酒 则 可 能 有 
益 于 健康 ,号 盐 过 多 对 健康 有 多 方面 的 危害 等 (如 导致 高 
血压 ), 这 些 大 多 是 首先 通过 统计 分 析 而 发 现 的 ， 然 后 促 
使 学 者 们 对 其 机 理 进 行 研究 . 有 的 也 可 能 是 从 纯 学 理 的 
分 析 提 出 来 ,但 也 必须 寻求 统计 资料 的 验证 . 另外 ,一 种 
药物 对 治疗 某 种 疾病 是 天 有 效 ,效果 多 大 , 几 种 药物 或 治 
疗 方 法 效果 的 比较 ,最 后 都 必须 诉 诸 临 床 试验 ,用 统计 分 
析 的 方法 确定 . 这 是 因为 人 群 的 变异 性 很 大 ， 同 患 一 种 
病 , 因 人 体质、 年龄、 遗传 基础 以 至 以 往 的 生活 史 和 健康 史 
等 等 方面 的 差异 ， 对 同一 种 药物 或 治疗 方法 的 反应 就 会 
有 差异 . 只 有 在 精心 设计 、 进 行 大 量 观察 ,并 使 用 正确 的 
统计 方法 去 进行 分 析 ,才能 得 出 科学 上 站 得 住 脚 的 结论 . 
有 时 ， 人 们 从 广告 中 看 到 某 种 药物 治疗 某 病 的 有 效率 很 
遍 ( 上 日 分 之 九 十 或 更 高 ) ,而 实际 使 用 效果 却 并 不 理想 ,这 
只 要 在 看 试验 规模 多 大 ,样本 如 何 收集 ,以 及 数据 的 统计 
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分 析 是 如 何 做 的 ,就 不 难 从 其 发 现 问题 . 

统计 方法 在 自然 科学 和 技术 科学 中 的 应 用 ， 少 量 的 
是 属于 纯 学 理 的 ， 而 大 量 的 则 是 直接 应 用 的 性 质 一 一 解 
决 人 们 在 面向 自然 的 种 种 实践 活动 中 所 碰 到 的 问题 . 当 
然 ， 这 两 个 方面 并 非 截然 分 开 的 ， 可 能 在 某 项 研究 工作 
中 兼 有 这 两 方面 的 目的 .属于 前 一 方面 的 一 个 典型 例子 ， 
是 本 文 前 面 提 到 的 耿 德 尔 (J. G. Mendal) 遗传 定律 . 其 
实 ,一 般 地 讲 , 自 然 科学 (数学 除外 ,通常 并 不 把 数学 看 作 
为 自然 科学 的 一 个 部 门 ) 中 ,任何 规律 性 都 有 一 个 经 受 统 
计 检 验 的 问题 . 例如 ， 用 适量 的 观测 数据 对 开 普 勒 (J 
Kepler) 行星 运动 定律 进行 统计 检验 ， 可 以 认为 是 符合 
的 ; 但 如 用 极 大 量 的 观测 数据 去 检验 ， 则 会 发 现 其 符合 
程度 并 不 佳 .因此 ,就 弄 清 楚 了 ， 开 普 勒 的 行星 运动 定律 
只 是 在 一 定 的 误差 限度 内 正确 ， 而 这 自然 与 牛顿 力学 的 
”近似 性 质 有 关 . 至 于 在 应 用 性 的 研究 中 , 常 因 对 所 研究 的 
现象 的 规律 性 认识 不 充分 ， 而 不 能 不 在 很 大 程度 上 通过 
对 试验 和 观察 数据 的 分 析 ,建立 一 些 经验 性 的 规律 (如 经 
验 公 式 ), 并 利用 它 去 处 理 所 面 临 的 问题 .如 在 地 震 预 报 、 
地 质 探矿 和 气象 预报 中 ,统计 方法 都 有 很 多 应 用 . 像 在 地 
震 预 报 的 研究 中 ,人 们 通过 用 统计 方法 分 析 以 往 的 资料 ， 
可 能 会 发 现 某 级 以 上 的 大 地 震 的 发 生 ， 存 在 着 种 种 可 能 
的 周期 ,人 们 无 法 从 学 理 上 严格 证 明 这 种 周期 的 存在 , 它 
可 能 只 是 一 个 很 粗略 的 近似 ， 但 毕竟 是 认识 上 的 一 种 进 
步 , 且 有 实际 意义 .又 如 我 国 统计 学 者 在 使 用 统计 方法 找 
矿 这 一 方面 ， 作 出 了 一 些 很 有 实际 意义 的 成 果 ， 这 种 工 
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作 也 可 能 提出 对 所 研究 的 现象 的 规律 性 的 认识 ， 


六 、 简 单 的 历史 与 现状 


在 本 节 中 ,我们 将 简略 地 回顾 一 下 统计 学 的 发 展 史 ， 
包括 发 展 过 程 中 所 经 历 的 一 些 大 事 ， 以 及 对 这 门 学 科 的 
创立 与 推进 有 特别 重大 影响 的 那些 学 者 的 贡献 .由 于 我 
们 不 能 涉及 本 学 科 过 多 的 细节 内 容 ， 所 作 的 介绍 只 能 是 
很 粗 线条 的 .我 们 也 准备 对 我 国 统计 学 的 状况 作 一 些 介 
绍 .另外 ,我 们 也 想 顺便 谈 谈 统计 学 的 目前 状况 和 有 待 解 
决 的 一 些 重大 问题 , 供 对 这 方面 有 兴趣 的 读者 参考 ， 

在 我 国 历史 典籍 《二 十 四 史 》 中 ,有 不 少 钱粮 户口 .水 
灾 地 震 等 有 关 国 情 的 记载 .这 是 统计 性 质 的 工作 ,当然 还 
不 能 算 作 是 现代 意义 下 的 统计 学 ， 因 为 这 只 是 有 关 事实 
的 记录 ,整理 ,而 没有 在 一 定 的 理论 的 指导 下 ， 作 出 超越 
数据 范围 之 外 的 推断 .现代 统计 学 的 产生 ,一 方面 是 由 于 
在 各 种 领域 内 应 用 上 的 需要 ， 一 方面 由 于 近代 数学 和 概 
率 论 的 发 展 ,提供 了 把 一 些 多 少 是 从 经 验 上 提出 的 ,个 别 
的 方法 ,加 以 理论 上 的 提高 和 系统 化 . 

高 斯 (C. F. Gauss) 从 描述 天 文 观测 的 误差 而 引进 正 
态 分 布 ,并 使 用 最 小 二 乘法 作为 一 种 估计 方法 ,是 近代 数 
理 统计 学 发 展 初期 的 重大 事件 ，18 世纪 末 到 19 世纪 初 
期 的 这 些 贡献 ,有 很 大 的 影响 ， 例 如 ,用 正 态 分 布 描述 观 
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尖 数 据 后 来 被 广泛 地 用 到 生物 学 中 ;其 应 用 是 如 此 普遍 ， 
以 致 在 上 世纪 相当 长 的 时 期 内 ，、 包 括 高 尔 顿 在 内 的 一 些 
学 者 ,认为 这 个 分 布 可 用 于 措 述 几乎 是 一 切 常 见 的 数据 . 
直到 现在 ,有 关 正 态 分 布 的 统计 方法 , 仍 占据 着 常用 统计 
方法 中 很 重要 的 一 部 分 .最 小 二 乘法 方面 的 工作 ,在 本 世 
纪 官 以 来 又 经 过 了 一 些 学 者 的 发 展 ， 如 今 成 了 数理 统计 
学 中 的 重要 方法 . 

从 高 斯 到 本 世纪 初 这 一 段 时 间 ， 统 计 学 理论 发 展 不 
快 . 但 仍 有 若干 工作 对 后 世 产 生 了 很 大 的 影响 . 其 中 ,如 
只 时 斯 (T. Bayes) 在 1763 年 发 表 的 《 论 有 关机 过 问题 的 
求解 >》， 提 出 了 进行 统计 推断 的 方法 论 方面 的 一 种 见解 ， 
在 这 个 时 期 中 逐步 发 展 成 统计 学 中 的 贝 叶 斯 学 派 (如 今 ， 
这 个 学 派 的 影响 愈 来 愈 大 ) .再 如 前 面 提 到 的 高 尔 顿 在 回 
归 方 面 的 先驱 性 的 工作 ,也 是 这 个 时 期 中 的 重要 发 展 . 

数理 统计 学 发 展 的 第 二 个 阶段 ， 是 从 上 世纪 末期 到 
二 次 大 战 结 束 . 现 在, 多数 人 倾向 于 把 现代 数理 统计 学 的 
起 点 和 达到 成 熟 定 为 这 时 期 的 始末 ,因此 ,这 是 数理 统计 
学 发 展 史 上 极 重要 的 一 个 时 期 . : 

这 确 是 数理 统计 学 蓬勃 发 展 的 一 个 时 期 ， 许 多 重要 
的 基本 观点 ,方法 ,统计 学 中 主要 的 分 支 学 科 ， 都 是 在 这 
个 时 期 建立 和 发 展 起 来 的 . 以 费 歌 耳 (R. A. Fisher， 
1890 一 1962) 和 卡 。 皮 和 尔 逊 〈 玫 , Pearson, 1856~1936) 
为 首 的 英国 统计 学 派 ,在 这 个 时 期 起 了 主导 的 作用 ,特别 
是 费 歌 耳 . ， 

卡 。 皮 尔 避 发 现 ， 有 不 少 生物 学 方面 的 数据 有 显著 
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的 偏 态 ,不 适合 用 正 态 分 布 去 刻 划 . 为 此 ,他 提出 了 一 个 
后 来 以 他 的 名 字 命 名 的 分 布 族 . 为 估计 这 分 布 族 中 的 参 
数 ,他 提出 了 “和 矩 法 ”. 为 考察 实际 数据 与 这 族 分 布 的 拟 合 
优先 问题 ,他 引进 了 著名 的 “和 检验 ? ,并 在 理论 上 研究 了 
其 性 质 . 这 两 方面 的 工作 ,对 统计 学 的 应 用 及 以 后 的 理论 
发 展 ,都 有 重要 的 意义 . 

费 吹 耳 对 数理 统计 学 的 发 展 作出 了 最 大 的 贡献 . 在 
此 ,我 们 只 能 列举 他 的 几 项 主要 工作 ， 

1、 参数 估计 方面 .他 提出 了 著名 的 “ 极 大 似 然 估计 
法 * .这 是 应 用 上 最 广 的 一 种 估计 方法 . 他 在 二 十 年 代 的 
工作 ,奠定 了 参数 估计 的 理论 基础 . 

2， 试验 设计 与 方差 分 析 . 我 们 在 第 2 节 中 叙述 的 试 
验 设计 方面 的 内 容 ,包括 设计 的 三 大 原则 ,是 费 欧 耳 及 其 
合作 者 时 蒋 (F. Yates) 所 开创 的 ， 他 们 还 发 展 了 分 析 这 
种 试验 数据 的 统计 方法 一 一 方差 分 析 法 . 

3， 多 元 分 析 、 相 关 回 归 ， 费 欣 耳 系统 地 研究 了 正 态 
分 布 样本 的 一 些 重要 统计 量 的 抽样 分 布 ， 这 些 都 是 多 元 
分 析 、 相 关 回归 等 分 支 的 疯 基 性 工作 . 

4. 其 他 ， 费 鞭 耳 在 假设 检验 和 一 般 的 统计 思想 方 
面 ,也 都 作出 过 重要 的 贡献 ,后 者 包括 他 提出 的 一 种 新 的 
统计 推断 思想 一 一 信任 推断 法 . 

在 这 个 时 期 作出 了 重要 贡献 的 统计 学 家 中 ， 还 应 当 
提 到 奈 曼 和 依 . 皮尔 逊 .他 俩 人 联合 发 展 了 假设 检验 的 
系统 理论 . 泰 曼 还 发 展 了 区 间 估 计 的 理论 .他 们 工作 的 要 
提 , 曾 在 第 4 节 中 介绍 过 . 1946 年 ,瑞典 统计 学 家 克拉 美 
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(H. Cramer) 的 《统计 学 数学 方法 》 一 书 问世 . 这 是 第 一 
部 严谨 而 较 系统 的 数理 统计 学 著作 ， 其 中 总 结 了 上 文 提 
到 的 主要 成 就 .可 以 认为 ,这 本 著作 的 问世 ， 标 志 了 数理 
统计 学 已 成 为 一 门 成 熟 的 学 科 

从 战 后 到 现在 ,是 统计 学 发 展 的 第 三 个 时 期 .这 是 一 
个 在 前 一 段 发 展 的 基础 上 , 随 着 生产 和 科技 的 普遍 进步 ， 
而 使 这 个 学 科 得 到 飞速 发 展 的 一 个 时 期 .同时 ,也 出 现 了 
不 少 有 待 解决 的 大 问题 .为 节省 篇 幅 , 我 们 把 这 一 个 时 期 
的 发 展 ,总 结 为 以 下 四 个 方面 ， 

一 是 在 应 用 上 愈 来 愈 广泛 . 统计 学 的 发 展 ， 一 开始 
就 是 应 实际 的 要 求 ， 并 与 实际 密切 结合 的 ,在 二 次 大 战 
前 ,已 在 生物 ,农业 ,医学 ,社会 ,经济 等 方面 有 不 少 应 用 ， 
在 工业 和 科技 这 方面 也 有 一 些 应 用 ， 而 后 一 方面 在 战 后 
得 到 了 特别 引 人 注 目的 进展 . 例如 ,归纳 到 “统计 质量 管 
理 ” 名 目下 的 众多 的 统计 方法 ,在 大 规模 工业 生产 中 的 应 
用 取得 了 很 大 的 成 功 ， 目 前 已 被 认为 是 不 可 缺少 的 . 我 
们 在 前 面 已 谈 到 过 这 些 方面 对 日 本 在 战 后 的 经 济 发 展 中 
的 作用 . 在 其 他 国家 中 也 取得 了 成 效 . 统计 学 应 用 的 广 
泛 , 也 可 以 从 下 述 情况 得 到 印证 ;统计 学 已 成 为 高 等 学 校 
中 许多 专业 必修 的 内 容 , 统 计 学 专业 的 毕业 生 的 人 数 ,以 
及 从 事 统计 学 的 应 用 、 教 学 和 研究 工作 的 人 数 的 大 幅度 
增长 ,有 关 统 计 学 的 著作 和 期 刊 杂 志 的 数量 的 显著 增长 . 
如 在 美国 ,每 年 统计 学 方面 毕业 的 大 学 生 人 数 ,与 数学 方 
面 的 大 学 毕业 生 人 数 相 当 或 略 多 . 从事 统计 学 方面 的 工 
作者 已 有 十 余 万 人 ， 每 年 出 版 统计 学 方面 的 著作 和 教科 
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书 数 百 种 ,统计 学 方面 的 专业 杂志 就 有 四 ,五 种 ， 部 分 有 
关 的 还 不 计 在 内 

二 是 统计 学 理论 一 一 数理 统计 学 方面 也 取得 了 重大 
的 进展 .虽然 可 以 说 ,在 1946 年 克拉 美 完成 他 的 著作 《 统 
计 和 学 数学 方法 》 时 ， 数 理 统 计 学 可 算是 有 了 完整 的 体系 . 
但 许多 方面 的 研究 还 只 是 很 初步 的 ,甚至 没有 开始 .现在 
则 面貌 大 为 改观 了 .理论 上 的 成 就 ,综合 起 来 大 致 有 两 个 
主要 方面 . 一 个 方面 与 瓦尔 德 (A. Wald) 所 提出 的 “统计 
决策 理论 有 关 .这 方面 留待 下 面 再 谈 . 另 一 个 方面 就 是 
大 样本 理论 , 即 在 样本 大 小 无 限 增加 时 ,统计 量 与 统计 方 
法 的 极限 性 质 的 理论 .不 过 ， 随 着 这 种 理论 的 纵深 发 展 ， 
也 就 产生 了 一 个 重要 问题 :有 的 学 者 认为 , 纯 理 论 方面 的 
发 展 ， 使 统计 学 发 展 初期 ( 指 战 前 时 期 ) 与 实际 密切 结合 
的 传统 有 所 前 弱 .甚至 认为 这 是 一 个 “和 危机” .就 大 样本 理 
论 来 说 ,确实 有 些 成 果 在 数学 上 很 深刻 和 精细 ,但 已 没有 
多 大 实用 价值 .这 是 因为 ,在 实际 问题 中 ， 样 本 大 小 总 是 
有 限 的 .对 某 一 具体 的 梓 本 大 小 而 言 , 极 限 结果 的 误差 多 
大 ,缺乏 有 用 的 估计 . 故 有 人 认为 ,发 展 有 实用 价值 的 大 
样本 理论 ,是 目前 数理 统计 学 所 面临 的 一 个 重要 课题 . 

三 是 电子 计算 机 的 应 用 对 统计 学 的 影响 . 这 主要 在 
于 以 下 儿 个 方面 ， 首先 ,一 些 需 要 大 量 计算 的 统计 方法 ， 
过 去 因 计 算 工 具 不 行 而 无 法 使 用 ， 有 了 电子 计算 机 ， 这 
一 切 都 不 成 问题 .前面 提 到 过 ,在 成 后 ,统计 学 应 用 愈 来 
愈 广 泛 ,这 在 相当 程度 上 要 归功 于 计算 机 .特别 是 对 于 高 
维 数据 的 情况 .对 这 种 情况 ,传统 的 统计 理论 中 提供 的 模 
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型 (如 多 维 正 态 模型 ), 一 般 不 甚 符合 实际 .有 的 学 者 发 展 
了 一 些 思想 入 法， 着 重 在 利用 计算 机 在 短 时 间 内 处 理 
大 量 数据 的 能 力 ,以 直接 从 数据 出 发 探索 可 用 的 模型 ,以 
及 有 效 地 提取 数据 中 的 信息 .对 这 一 方面 ,有 的 学 者 寄予 
很 大 的 希望 ,认为 是 未 来 统计 学 发 展 的 方向 之 一 . 目前 ， 
在 这 方面 已 出 现 了 某 些 受到 注意 的 工作 ， 但 在 这 方面 能 
走 多 远 , 还 要 拭目以待. 

电子 计算 机 的 使 用 ,对 统计 学 的 另 一 方面 的 影响 是 ， 
按 传统 的 数理 统计 学 理论 ,一 个 统计 方法 的 效果 如 何 , 甚 
至 一 个 统计 方法 如 何 付 诸 实施 ， 都 有 赖 于 决定 菜 些 统计 
量 的 分 布 ,而 这 常 是 极 困难 的 .数理 统计 学 家 往往 只 好 退 
而 求 其 次 一 一 转向 大 样本 方法 .而 这 样 做 , 又 有 前 面 所 指 
出 的 困难 . 现 有 了 计算 机 ,就 提供 了 一 个 新 的 途径 ,模拟 . 
例如 ,用 模拟 的 方法 去 决定 某 个 抽样 分 布 的 分 位 点 ,很 容 
易 达 到 实用 上 满意 的 解决 ， 为 了 把 一 个 统计 方法 与 其 他 
方法 比较 ,可 以 选择 若干 组 在 应 用 上 有 代表 性 的 条 件 , 在 
这 些 条 件 下 ,通过 模拟 去 比较 两 个 方法 的 性 能 如 何 , 然 后 
作出 综合 的 分 析 . 这 避 开 了 理论 上 难于 解决 的 困难 问题 ， 
有 极 大 的 实用 意义 . 

这 种 情况 的 出 现 ,也 给 统计 学 的 发 展 提出 了 问题 :从 
大 处 说 ， 它 难免 使 人 觉得 传统 的 统计 学 理论 的 作用 降低 
了 .因为 ,既然 计算 机 可 以 解决 一 些 以 往 需 要 用 理论 解决 
的 问题 ,那么 ,发 展 理论 是 否 就 变 得 不 那么 迫切 了 .我 们 
对 这 个 问题 的 看 法 是 否定 的 . 不 错 ,在 有 些 情况 下 ,数据 
本 身 就 不 好 看 成 是 从 一 定 的 统计 总 体 中 抽出 的 〔 这 主要 
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因为 它们 原则 上 不 能 在 同样 的 条 件 下 重复 ) ,但 用 计算 机 
去 处 理 , 寻 找 数据 中 所 包含 的 规律 性 和 提取 其 中 的 信息 ， 
仍 是 有 意义 的 工作 . 这 一 点 不 能 看 成 是 计算 机 的 应 用 取 
代 了 数理 统计 学 的 理论 .因为 ,按照 对 统计 学 意义 的 现行 
理解 ,这 种 数据 的 分 析 问 题 本 来 就 不 属于 统计 学 的 范围 . 
而 在 这 个 范围 内 , 虽 则 在 某 些 技术 问题 上 ,计算 机 的 使 用 
确 能 解决 以 往 需要 用 复杂 理论 解决 的 问题 . 但 在 涉及 一 
个 统计 方法 的 全 面 性 质 ， 以 及 几 种 统计 方法 优良 性 的 比 
较 等 问题 上 ,计算 机 并 不 能 代替 理论 的 作用 .因为 具 能 选 
择 有 限 组 参数 值 去 进行 模拟 ， 这 种 模拟 的 结果 可 以 指示 
结论 可 能 的 性 质 , 但 不 能 据 此 下 定论 . 实际 上 ,可 以 说 情 
况 正 好 相反 ;计算 机 的 使 用 ,给 统计 学 的 理论 提出 了 一 些 
新 的 研究 课题 . 举例 言 之 , 在 数据 分 析 中 ,发展 了 一 种 方 
法 , 叫 “ 投 影 追踪 法 ? ,或 简称 “PP 方法 ” .这 种 方法 的 精 
神 ,是 通过 把 高 维 数据 向 低 维 空间 投影 ,寻找 在 某 种 意义 
下 最 好 的 “投影 方向 *"， 以 便 把 复杂 的 高 维 问题 转化 为 较 
易 处 理 的 低 维 问题 . 目前 ,通过 计算 机 模拟 ,已 证 实 了 在 
一 定 情况 下 ,这 种 方法 比 之 传统 方法 确 有 其 优越 性 .但 随 
着 这 方法 的 发 展 ,也 提出 了 一 些 重要 的 理论 问题 ,只 有 解 
决 了 这 个 问题 ,这 种 方法 才 可 能 站 稳 脚 根 , 并 为 人 们 所 真 
正 接受 .可 以 说 ,这 个 状况 与 计算 机 的 使 用 对 计算 数学 的 
影响 相似 ;计算 机 的 使 用 淘汰 了 一 些 过 时 的 计算 方法 ,但 
也 给 计算 方法 的 理论 研究 提出 了 不 少 的 新 课题 . 

第 四 是 瓦尔 德 (A. Wald) 的 统计 决策 理论 的 提出 ， 
以 及 由 时 斯 (T. Bayes) 统 计 学 派 的 进展 . 瓦尔 德 (1902 一 
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1950) 是 原籍 罗马 尼 亚 的 美国 统计 学 家 ,是 本 世纪 中 对 统 
计 学 面貌 的 改观 起 了 重大 影响 的 少数 几 个 统计 学 家 之 
一 . 1950 年 ,他 发 表 了 题 为 《统计 决策 函数 > 的 著作 , 正式 
提出 了 这 个 理论 .瓦尔 德 本 来 的 想法 ,是 要 把 统计 学 的 各 
分 支 都 统一 在 “人 与 大 自然 的 博 奕 ? 这 个 模式 下 ， 以 便 作 
出 统一 的 处 理 . 例 如 ,参数 估计 和 假设 检验 ， 看 起 来 是 差 
别 很 大 的 分 支 ， 但 在 瓦尔 德 的 理论 中 ， 形 式 地 统一 起 来 
了 .他 这 个 理论 引起 统计 学 界 很 大 的 兴趣 .不 过 ， 往 后 的 
发 展 表明 ,瓦尔 德 最 初 的 设想 并 未 取得 很 大 的 成 功 ,但 却 
有 着 两 方面 的 重要 影响 ， 一 是 瓦尔 德 把 统计 推断 的 后 果 
与 经 济 上 的 得 失 联 系 起 来 ， 这 使 统计 方法 更 便于 直接 用 
到 经 济 性 的 决策 的 领域 ， 二 是 瓦尔 德 理论 中 所 引进 的 许 
多 概念 和 问题 的 新 提 法 ,丰富 了 以 往 的 统计 理论 .例如 参 
数 的 点 估计 理论 ， 在 战 后 时 期 受到 瓦尔 德 理论 很 大 的 影 
响 , 以 致 其 面 狐 有 了 很 大 的 改变 . 其 他 统计 分 支 ,也 程度 
不 同 地 受到 他 的 理论 的 影响 .因此 ,把 瓦尔 德 列 为 对 近代 
统计 学 作出 重大 贡献 的 学 者 之 一 ,是 当之无愧 的 . 

贝 叶 斯 统计 学 派 的 基本 思想 ， 源 出 于 英国 学 者 贝 叶 
斯 (1702~1761) 的 一 项 工作 ， 发 表 于 他 去 世 后 的 1763 
年 . 后 世 的 学 者 把 它 发 展 为 一 整套 关于 统计 推断 的 系统 
理论 . 信奉 这 种 理论 的 统计 学 者 ,就 组 成 了 贝 叶 斯 学 派 . 
这 个 理论 在 两 个 方面 与 传统 理论 〈 即 基于 概率 的 频率 解 
释 的 那 种 理论 ) 有 根本 的 区 别 ， 一 是 否定 概率 的 频率 解 
释 ， 这 涉及 与 此 有 关 的 大 量 统计 概念 ， 而 提倡 给 概率 以 
“主观 上 的 相信 程度 ?这样 的 解释 ， 二 是 “ 先 验 分 布 ?的 使 
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用 ， 先 验 分 布 被 理解 为 在 抽样 前 对 推断 对 象 的 知识 的 概 
括 . 按照 贝 叶 斯 学 派 的 观点 ,样本 的 作用 ,在 于 且 仅 在 于 
对 先 验 分 布 作 修 改 ， 而 过 渡 到 “后 验 分 布 * 一 一 其 中 综合 
了 先 验 分 布 中 的 信息 与 样本 中 包含 的 信息 .在 此 , 因 篇 幅 
关系 ,不 能 对 此 作 详 细 解 释 , 并 将 其 与 传统 理论 作 仔细 的 
比较 ， 只 指出 这 种 方法 在 应 用 上 方便 ,在 一 些 情况 下 ,其 
意义 也 显得 更 自然 且 易 于 了 解 .所 以 ,直到 本 世纪 四 十 年 
代 , 这 个 学 派 一 直 未 得 到 重大 进展 ,但 近 几 十 年 来 情况 有 
了 很 大 的 改变 ,其 信奉 者 愈 来 愈 多 ,其 中 包括 一 些 有 影响 
的 学 者 .这 两 个 学 派 之 间 的 争论 ,是 战 后 时 期 统计 学 的 一 
个 重要 特点 .在 这 种 争论 中 ,提出 了 不 少 问 题 促 使 人 们 进 
行 研究 ,其 中 有 的 是 很 根本 性 的 , 例如 , 对 统计 推 央 和 主 
观 概 率 这 种 基本 概念 的 深入 研究 ,促进 了 统计 学 的 发 展 ， 
有 人 且 认 为 将 对 未 来 的 统计 学 的 面貌 起 重要 影响 . 贝 叶 
斯 学 派 与 巨 尔 德 统计 决策 理论 的 联系 在 于 ， 这 二 者 的 结 
合 , 产 生 了 “ 兄 叶 斯 决策 理论 ”, 它 构成 统计 决策 理论 在 实 
际 应 用 上 的 主要 内 容 . 

以 上 是 关于 统计 学 现状 及 存在 的 问题 的 一 个 很 粗略 
的 介绍 .应 当 指 出 ,这 一 叙述 在 一 定 程度 上 只 是 作者 个 人 
的 主观 看 法 ,不 一 定 都 很 妥当 或 确切 . 

最 后 谈 谈 我 国 统计 学 发 展 的 简单 情况 ， 这里, “统计 
学 ”一 词 是 在 本 书 前 述 意 义 下 去 理解 的 . 

我 国 现代 统计 学 的 研究 起 步 较 晚 .本 世纪 三 十 年 代 ， 
有 许 宝 驿 等 人 去 当时 统计 学 最 发 达 的 国家 一 一 英国 ， 随 
费 软 耳 等 著名 统计 学 家 学 习 和 进行 研究 工作 . 其 中 作出 
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了 态 出 贡献 ,并 取得 国际 影响 的 ,有 许 宝 又 教授 ， 许 教授 
在 三 、 四 十 年 代 发 表 了 一 系列 重要 论文 ,涉及 统计 学 理论 
的 一 些 领域 ， 其 中 尤 以 在 多 元 分 析 和 线性 模型 的 统计 推 
新 方面 的 工作 最 为 突出 ,有 的 且 是 英 基 性 的 . 许 教授 的 一 
些 工作 ,直到 现在 还 常 被 引用 ,可 以 说 已 成 为 本 学 科 方 面 
的 经 典 著 作 ， 许 教授 在 培养 统 计 学 人 才 方 面 也 作出 了 重 
大 贡献 .他 曾 执 教 于 美国 ,其 学 生 中 ,有 的 后 来 成 为 美国 
统计 学 界 的 权威 和 前 辈 . 在 国内 ,他 曾 执教 于 西南 联合 大 
学 和 北京 大 学 一 一 解放 后 至 他 去 世 的 1970 年 为 止 ， 他 一 - 
让 在 北京 大 学 ,除了 继续 进行 统计 学 理论 的 研究 工作 外 ， 
更 重要 的 是 他 培养 了 一 批 学 生 ， 人 
统计 学 界 的 上 骨干. 总 之 , 许 教授 对 世界 和 我 国 统计 学 
展 ,都 作出 了 巨大 的 贡献 . 

在 我 国 ,统计 学 一 直 被 看 成 数学 的 一 个 分 支 .但 统计 
学 中 所 用 的 数学 工具 比较 初 浅 古 典 ， 与 近代 数学 发 展 的 
主流 相去 甚 远 , 纯 数学 方面 的 学 者 多 不 愿 问 津 , 加 上 我 国 
工农 业 生 产 、 科 技 方面 的 落后 ,以 及 其 他 种 种 原因 ， 统 计 
学 的 发 展 缺 乏 应 用 方面 需求 的 推动 ,这 种 种 情况 ,使 得 我 
国 统计 学 的 发 展 ,与 国际 先进 水 平 相 比 落后 很 多 .到 解放 
时 的 情况 是 :国内 从 事 这 方面 研究 工作 的 ,只 有 届 指 可 数 
的 几 个 人 ， 高 等 学 校 除 个 别 例外 ， 都 不 能 开 出 这 方面 的 
课程 ， 应 用 和 出 版 方面 的 情况 就 更 差 . 

解放 后 ,在 中 国 科 学 院 数 学 研究 所 中 ,先后 建立 了 概 
率 统 计 的 研究 组 和 室 (1980 年 数学 所 改组 为 三 个 所 后 , 统 
计 学 方面 的 研究 人 员 分 别 安排 在 系统 科学 研究 所 和 应 用 
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数学 研究 所 内 ) .1956 年 ,在 制定 科学 规划 时 ,对 这 学 科 给 
予 较 大 的 关注 .中国 科学 院内 ,这 方面 的 研究 队伍 有 所 扩 
大 .个别 条 件 较 好 的 高 等 学校, 也 加 强 了 本 学 科 的 人 才 培 
养 工 作 . 自 1955 年 到 1966 年 ,一 批 中 ,青年 学 者 在 研究 工 
作 中 取得 了 成 绩 . 其 中 如 王 寿 仁 ,. 张 里 千 、 成 乎 、. 张 车 庭 、 
刘 玉 温 等 人 , 在 非 参 数 统 计 、 参 数 估计 和 试验 设计 方面 ， 
作出 了 达到 或 接近 国际 先进 水 平 的 工作 . 自 1958 年 以 来 ， 
统计 工作 者 开始 较 大 量 地 将 统计 方法 应 用 到 国民 经 济 和 
科技 领域 中 ,并 取得 了 初步 的 成 绩 和 经 验 . 以 上 这 些 , 为 
我 国 统计 学 的 大 发 展 打 下 了 初步 的 基础 . 在 十 年 动乱 期 
间 ， 理 论 方 面 的 研究 工作 和 培养 人 才 的 工作 基本 上 陷于 
停顿 ， 我 国 与 国外 先进 水 平 的 差距 拉 大 了 ; 但 在 应 用 方 
面 ,这 期 间 还 是 有 一 些 进 展 的 , 例如 , 把 统计 方法 用 于 工 
农业 (主要 是 工业 ) 得 到 更 大 的 推广 ， 其 他 如 在 地 质 、 医 
药 .气象 ,地震 和 水 文 预 报 方面 ,都 开展 了 一 些 工 作 ,并 取 
得 效果 . 

1977 年 以 来 ,我 国 统计 学 的 发 展 进 入 了 一 个 新 时 期 . 
统计 学 研究 的 队伍 扩大 了 ， 在 一 些 分 支 中 作出 了 高 质量 
的 研究 工作 . 在 培养 人 才 方 面 ， 目 前 已 有 五 所 高 等 学 校 
(北京 大 学 、 复旦 大 学 、 南开 大 学 、 武 汉 大 学 、 华 东 师 范 
大 学 建立 了 这 方面 的 系 ， 保 证 了 按 本 学 科 的 特点 去 培养 
人 人才. 到 目前 为 止 ,概率 统计 方面 已 获得 博士 学 位 的 , 近 
十 名 ; 已 获得 硕士 学 位 的 , 百 余 人 . 教师 队伍 的 量 和 质 ， 
也 有 很 大 的 提高 ,应 用 方面 ， 无 论 在 广度 和 深度 方面 ， 
都 有 进展 ,作出 了 一 些 获得 各 级 奖励 的 工作 . 出 版 方面 ， 
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我 国 近年 来 出 版 了 近 百 种 专著 和 教科 书 ， 专 业 杂志 上 和 登 
载 的 统计 学 论文 也 日 渐 增多 ,并 从 1985 年 9 月 起 刊行 了 
我 国 第 一 本 概率 统计 方面 的 专业 学 术 杂 志 一 一 《应 用 概 
率 统计 》， 从 这 个 势头 来 看 , 昌 则 目前 我 们 与 国际 先进 水 
平 尚 有 较 大 的 差距 ,但 只 要 有 正确 的 政策 ,并 坚持 不 懈 的 
努力 , 随 着 我 国 经 济 的 振兴 ,统计 学 这 门 有 重大 应 用 价值 
的 学 科 必 能 以 较 快 的 速度 发 展 , 迎 头 赶 上 世界 先进 水 平 . 
让 所 有 有 志 于 这 个 学 科 的 人 一 -起 努力 吧 . 
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